海量数据处理利器之hash在线邮件地址过滤themassivedataprocessorhashonlineemaila

摘 要摘 要当前,垃圾邮件的问题已经在全球蔓延开来,且呈现越来越严重的趋势。它占用了网络资源,威胁着网络安全,也困扰着人们的日常生活。哈希表和朴素贝叶斯算法的结合为垃圾邮过滤的问题提供了一种效率比较高的方法。本文选用了贝叶斯算法作为主要算法,借助哈希表这一有效的工具,针对传统的分布式贝叶斯算法存在的前期训练消耗大的缺点,对此过滤算法进行了改进。实现结果表明,在查准率和判对率相对较好的情况下,提高了过滤的执行率,减少了程序运行的时间。本文采用Java语言,设计出一套基于eclipse平台的垃圾邮件过滤系统。当有新的一封邮件过来时,与本地的文件库进行比较时,可根据结果自动的将待分类的邮件分成合法邮件和垃圾邮件。关键词垃圾邮件;哈希表;贝叶斯算法3.1.3 关键词的抽取 13 目前,应用在垃圾邮件过滤的方法中包括基于关键字、基于黑白名单、基于规则、基于散列值等多种方法。传统的这些技术在现行的计算机系统的实现时,都存在着管理难、误判率较高、成本高等问题。上个世纪90年代出现的贝叶斯分类器,应用在垃圾邮件的问题中,显示出它良好的性能。贝叶斯邮件过滤技术的原理在于通过样本的计算得到先验概率,然后在要过滤的文本中计算得到后验概率,通过后验概率的结果来判断这个文本是否属于垃圾邮件。先验概率的计算是基于提取训练样本集中垃圾邮件和合法邮件的特征向量词汇,然后形成垃圾邮件哈希表和合法邮件哈希表。通过计算得到先验概率,然后与垃圾邮件哈希表和合法邮件的哈希表一起构成知识库[]。然后在需要判别的文本中提取出特征向量词汇,与知识库中的数据进行比对得到后验概率,概率值较大的类别就是待分配文本的类别。在拥有如此高效的文本判别率的同时,贝叶斯算法也存在着很多技术上面的缺点。它在传统计算机的实现中,存在着前期训练运算量大、训练集不易拓展,占用很多计算机资源。在本文中,我对传统的贝叶斯过滤算法提出了一点点的改进,可以稍微减少前期训练的运算量。
目 录
第一章 绪论 1
1.1课题研究背景及意义 1
1.2当前反垃圾邮件的状况 2
1.2.1法律手段 2
1.2.2经济手段 3
1.2.3技术手段 3
1.3论文组织结构 4
1.4本章小结 4
第二章 理论基础 *好棒文|www.hbsrm.com +Q: ^351916072^ 
5
2.1电子邮件的结构 5
2.1.1电子邮件的结构特点 5
2.1.2邮件的传输方式 5
2.1.3 SMTP协议 6
2.1.4 POP3协议 7
2.2邮件内容格式 7
2.3贝叶斯算法 8
2.4算法的改进 11
2.5本章小结 11
第三章 实验分析 12
3.1 样本的收集与处理 12
3.1.1 初始样本的采集 12
3.1.2 初始样本集的预处理 12
3.1.3 关键词的抽取 13
3.1.4词频统计与权重计算 13
3.2 训练集和测试集 14
3.2.1训练阶段 14
3.2.2 测试阶段 15
3.3 本章小结 16
第四章 系统的实现与算法的评估 17
4.1系统的实现 17
4.2具体的代码分析 18
4.3系统的评估 21
4.3.1评估的标准 21
4.3.2评估的结果 22
4.4本章小结 23
第五章 系统测试 24
5.1系统测试的基本方法 24
5.2测试结果 24
结论 27
致谢 29
参考文献 30
第一章 绪论
1.1课题研究背景及意义
在20世纪后半叶,互联网的横空出世深刻地改变了人类的发展历程,并且改变着人们看待和思考这个世界的方式和角度[] 。随后,互联网的迅速发展和个人计算机的大范围普及,意味着“信息时代”的来临。互联网的出现,打破了传统的信息传递机制,使得信息可以在全球范围内快速的传递。但随之带来的信息安全,有效问题也成为各个行业的焦点。诞生于20世纪70年代的电子邮件技术使得邮件信息交换变成了现实。由于电子邮件有着快速便捷、成本低廉、易于保存等优点,得到广大用户的肯定及使用。也使得电子邮件成为现代社会主要通讯方式之一。
时至今日,电子邮件已经成为人们生活中不可或缺的一部分,渗透在人们生活中的方方面面。根据某个网站的统计,全球范围内有80%的网民在与同事、亲友的信息交流是通过电子邮件进行的。全球的互联网用户在一年时间总共发送107万亿封邮件,相当于一天发送大约3000亿封电子邮件。然而,在给人们带来便利的同时,电子邮件同样存在着重大的漏洞。据统计,垃圾邮件占总邮件数的89%,相当于平均每天发送近2770亿封垃圾邮件。几乎所有的电子邮件用户都受垃圾邮件的困扰[]。
大量垃圾邮件的出现,产生巨大的问题并且带来巨大的危害。电子邮件用户需要花费时间,精力和金钱去判断和处理垃圾邮件。甚至有的非法人员盗用别人的邮箱,盗用他人身份进行骗取他人的金钱,严重侵犯他人权利。其次,垃圾邮件还占用了互联网的资源,影响着邮件系统服务器,降低着网络的运行效率,造成巨大的经济损失。有些不法分子通过垃圾邮件渠道,传播着病毒和木马。这样在一些安全性不是很高的个人计算机中将造成系统崩盘等严重问题,影响着个人的工作和学习。更有甚者,一些反动分子和蓄意破坏社会和谐的人在垃圾邮件中传播色情,暴力和反动思想,污染了互联网的环境,扰乱人们的视听,对青少年的成长造成不良的发展方向,助长不良社会风气,严重情况下可能破坏国家的团结安定。因此,如何处理这些垃圾邮件成为全世界各国,各个互联网产业迫切需要解决的一个问题[]。
目前,应用在垃圾邮件过滤的方法中包括基于关键字、基于黑白名单、基于规则、基于散列值等多种方法。传统的这些技术在现行的计算机系统的实现时,都存在着管理难、误判率较高、成本高等问题。上个世纪90年代出现的贝叶斯分类器,应用在垃圾邮件的问题中,显示出它良好的性能。贝叶斯邮件过滤技术的原理在于通过样本的计算得到先验概率,然后在要过滤的文本中计算得到后验概率,通过后验概率的结果来判断这个文本是否属于垃圾邮件。先验概率的计算是基于提取训练样本集中垃圾邮件和合法邮件的特征向量词汇,然后形成垃圾邮件哈希表和合法邮件哈希表。通过计算得到先验概率,然后与垃圾邮件哈希表和合法邮件的哈希表一起构成知识库[]。然后在需要判别的文本中提取出特征向量词汇,与知识库中的数据进行比对得到后验概率,概率值较大的类别就是待分配文本的类别。在拥有如此高效的文本判别率的同时,贝叶斯算法也存在着很多技术上面的缺点。它在传统计算机的实现中,存在着前期训练运算量大、训练集不易拓展,占用很多计算机资源。在本文中,我对传统的贝叶斯过滤算法提出了一点点的改进,可以稍微减少前期训练的运算量。
1.2当前反垃圾邮件的状况
面对如此严重的问题,仅仅是技术手段已经不能够解决。目前全球在反垃圾邮件技术中采用法律手段、经济手段、技术手段等。
1.2.1法律手段

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/795.html

好棒文