中文垃圾短信过滤器模型的研究和实现
中文垃圾短信过滤器模型的研究和实现
在垃圾短信中文文本分类研究中,过滤器模型即分类器模型是其中重要的核心部分。分类器模型的目的是比较待分类文本和各个类别的相关度,为待分类文本分类类别。我国现有的分类器模型的研究主要关注于其对于长文本分类的研究,而本文主要针对分类器模型对短文本(短信)分类的研究。在现有的分类器模型分类算法的基础上,比较朴素贝叶斯算法、决策树算法、支持向量机算法和多分类器集成算法对短文本分类效果,分析和研究不同算法对分类效果的影响,并针对垃圾短信特点提出改进方案。
关键词 垃圾短信,文本表示,文本分类算法,分类器
1 引言 1
1.1 研究背景和研究意义 1
1.2 垃圾短信 1
1.3 国内外研究现状 4
1.4 主要研究内容 4
2 基于内容的垃圾短信分类技术 5
2.1 文本分类概述 5
2.2 文本预处理 6
2.3 特征提取 8
2.4 文本分类算法 8
2.5 分类器性能评价 12
3 实验过程及结果分析 13
3.1 实验环境 13
3.2 实验数据 13
3.3 实验过程 13
3.4 实验结果和分析 14
3.5 实验总结 32
3.6 实验不足分析 33
4 垃圾短信过滤系统 34
结 论 35
致 谢 36
参 考 文 献 37
1 引言
1.1 研究背景和研究意义
进入21世纪以来,移动通信技术获得了前所未有的飞速发展,手机的普及率迅速提高,手机用户的数量在飞速膨胀,人与人之间的交往方式变得更加快捷、方便。人们渐渐习惯了用发短信的方法来传递信息进行沟通和交流,因为它有着收发方便、移动性能强、价格实惠、娱乐性强的优点,所以目前全世界短信的发送量以指数级的姿态日益增长。短信业务在快速发展的过程中,虽然给广大手机使用者带来了无数的便利和帮助;但是也带来了很多的问题,因其低廉的传输代价,很多商家和不法分子为了自己的利益,向手机用户发送短信,宣传商品或欺骗等内容的信息,使得用户收到很多不请自来且毫无用处的短信,它们有商业广告、政治宣传、骚扰短信,甚至是手机病毒、不良链接。有调查显示,85.8%参加调查的人曾收到过广告短信,有33.4%的人收到过黄色短信,45.7%的人收到过其他不良短信[1]。不法分子利用短信发布虚假信息实施欺诈,传播有害健康、欺诈、反动等形式的信息,对社会安全造成了不可忽视的危害,如广告信息、推销信息、折扣信息、欺诈信息、黄色信息等。这些短信被统称为垃圾短信[2]。严重的泛滥的垃圾短信不仅严重影响着人们的正常生活,也浪费了广大手机用户的精力和时间,降低了手机资源的利用率,影响到非垃圾短信的传输和手机网络的安全性,而且危害社会安全、毒害社会风气、影响用户的正常生活,严重影响社会稳定和公共安全,使得用户和电信运营商不得不寻找抵御垃圾短信侵袭的方法。正因为人类越来越离不开短信,垃圾短信的智能过滤技术的课题研究因此具有十分重大的意义。
1.2 垃圾短信
1.2.1 短信知识
短信[3](short message service),简称SMS,是使用者通过手机或其他电信终端直接发送或接收的文字或数字信息。伴随着时代的发展和进步,手机的普及率越来越高,从大哥大到小灵通,从小灵通到智能机,业务形态、信息内容、网络要素都在不断的改变和丰富,人们不再将发送短信仅仅视为数字手机的专属功能,而在这不断地改变过程中始终不会变化的只有两点:
1)短信的内容长度。短信信息内容始终是不超过160个英文或者数字字符,或者不超过70个汉字。
2)短信传递方式。当用户由于某些原因暂时无法接收短信内容时,短信将暂时存储在短信中心上,当用户手机重新登录进入网络时,短信会迅速的从短信中心转发传递到用户的手机上。
1.2.2 垃圾短信的定义和分类
垃圾短信[4],是指未经接收方许可的,包含违反法律法规规定或具有广告信息内容的,或是以恶意报复他人为目的的、侵害接收者通信自由、生活安宁或违背社会善良风俗的短信信息。
垃圾短信有以下4个明显的特点:
1)批量发送;
2)内容违法、违规或涉及广告宣传;
3)违背用户主观意志;
4)客观上造成对用户骚扰或其它权益的侵害[5]。
对垃圾短信的分类是垃圾短信过滤研究的基础,本文根据垃圾短信内容的不同,分为以下四类标准:
1)诈骗型。以发送虚假短信、问候、询问短信等方式引诱手机用户,对用户进行诈骗。
2)违法型。信息中含有黄色、暴力、赌博、恐吓、封建迷信等法律法规中明文禁止传播的内容,对接受者直接进行短信骚扰。
3)广告型。通过手机短信进行广告宣传,在未经接收者允许的情况下发送具有广告宣传性质的信息,通过短信推销、宣传其新产品或新服务。如:商业促销广告、房地产广告、代开税票广告、培训机构广告、贷款广告、办证广告、招工广告、理财广告等等。
4)SP业务型。短信业务提供商违反法律规定群发端短信业务,诱导用户订制短信业务。
1.2.3 垃圾短信产生的原因及特点
垃圾短信产生的原因多种多样,概括起来有如下几点:
1)巨大利益驱动。当前,发展迅速的短信业务带来了巨大的经济利益,许多不法分子和违规的运营商为了攫取丰厚的利润,通过各种违规途径利用垃圾短信获取巨大利润。
2)法律滞后。我国针对规范电信运营活动、互联网信息服务和使用电信及互联网的行为制订了《电信条例》和《互联网信息服务管理办法》的法规,但是,由于这些行政法律法规制订时,短信通信尚处于发展的初级阶段,随着通信信息技术迅速的发展,制定的法规内容已不能全部涉及发展的需要。一些不法分子就乘机钻短信法律的滞后问题的空子。
3)技术上存在缺陷。目前没有高效的技术、设备来从手机短信中充分过滤出垃圾短信。
4)SP行业缺乏自律意识。近年来,随着市场经济的迅猛发展,市场经济和社会发展的不平衡性和冲突性越来越大,部分基于技术创新发展的行业例如SP行业,无视和违反市场规则,缺乏自律意识。
5)通信服务提供商无法对短信内容监控到位。对垃圾短信的监控,主要是在短信发送到服务中心这个环节上进行监控。目前技术监控还不够完善和高效,无法识别以及过滤出垃圾短信的内容。而面对每天内容巨大的短信发布量,服务商是不可能采用人工监控。
垃圾短信具有的特点如下[6]:
1)短信文本内容中常常会出现网络用语、口语化短语和一些变形字等,如网络用语“LZ”意指“楼主”,贴吧常用语“法国青山”意指“发过请删”,变形字如“酱紫”表达“这样子”等。
2)垃圾短信中表达同一主题的短信文本集中会出现很多的相同特征词。
3)当一个热点话题或突发事件发生时,作为手机短信等特殊媒体传播速度非常快,它们的实时性较高,因此某一时间段内的“大类别”才是通常意义下的”热点”。
1.2.5 垃圾短信的危害和解决方案
垃圾短信的日益猖獗和泛滥,影响手机用户的正常生活、危害社会安全,严重影响社会稳定和公共安全,产生以下几种危害:
1)侵害用户通信自由,扰乱用户生活秩序,败坏社会道德风尚。
2)垃圾短信产业链的发展严重危害正规SP发展。垃圾短信促进了非法SP产业链的形成和发展,令正规SP的发展受到排挤和限制,严重危害正规SP发展。
3)引起社会信任危机,危害社会稳定和公共安全。用户收到各种骚扰安宁生活的垃圾短信,会对社会产生不信任感,造成社会信任危机,这将危害社会稳定和持续发展。
4)败坏服务运营商的产品品牌形象。垃圾短信与服务运营商存在一定联系,垃圾短信的泛滥会使用户对运营商产生信任危机,必然会败坏其品牌形象。
垃圾短信的危害不容小觑,对于垃圾短信的治理有以下几个解决方案:①加快对垃圾短信法律法规的建设;②加大对垃圾短信过滤拦截技术的研发力度;③打破运营商短信垄断制度,引进市场竞争机制;④开展垃圾短信专项治理活动,加大打击力度;⑤加强SP行业自律意识的宣传和管理;⑥学习国外治理垃圾短信的先进经验和技术;
本毕业设计系统是基于windows7操作系统,在Visual Studio2012和SQL2008平台上采用MVC框架实现。在分类实验中跨平台使用Java环境下的Weka进行分类研究。
本分类系统旨在针对治理垃圾短信的技术屏障途径来进行研究和实现中文垃圾短信分类器模型。以中文文本分类算法为基础,针对垃圾短信特点,对文本分类算法进行改进和扩展,以实现一个具有较高实用价值的分类器模型,并将该分类器模型在Web平台下实现系统。在本分类系统中结合不同的特征提取方法,使用朴素贝叶斯、支持向量机、决策树和多分类器集成算法的分类器模型对垃圾短信进行分类,得出不同组合的分类效果。实验结果所得支持向量机分类器模型是最优的。
在短信文本分类实验中针对垃圾短信的特点提出了改进方法,但是改进方法在一定程度上还是有缺陷和不足的,使用的TFIDF改进是基于短文本中特征词的词频对分类的影响不大的假设基础上所做的研究,具有一定的片面性。对于分类的改进还需进一步研究,以达到更好的分类结果。
在垃圾短信中文文本分类研究中,过滤器模型即分类器模型是其中重要的核心部分。分类器模型的目的是比较待分类文本和各个类别的相关度,为待分类文本分类类别。我国现有的分类器模型的研究主要关注于其对于长文本分类的研究,而本文主要针对分类器模型对短文本(短信)分类的研究。在现有的分类器模型分类算法的基础上,比较朴素贝叶斯算法、决策树算法、支持向量机算法和多分类器集成算法对短文本分类效果,分析和研究不同算法对分类效果的影响,并针对垃圾短信特点提出改进方案。
关键词 垃圾短信,文本表示,文本分类算法,分类器
1 引言 1
1.1 研究背景和研究意义 1
1.2 垃圾短信 1
1.3 国内外研究现状 4
1.4 主要研究内容 4
2 基于内容的垃圾短信分类技术 5
2.1 文本分类概述 5
2.2 文本预处理 6
2.3 特征提取 8
2.4 文本分类算法 8
2.5 分类器性能评价 12
3 实验过程及结果分析 13
3.1 实验环境 13
3.2 实验数据 13
3.3 实验过程 13
3.4 实验结果和分析 14
3.5 实验总结 32
3.6 实验不足分析 33
4 垃圾短信过滤系统 34
结 论 35
致 谢 36
参 考 文 献 37
1 引言
1.1 研究背景和研究意义
进入21世纪以来,移动通信技术获得了前所未有的飞速发展,手机的普及率迅速提高,手机用户的数量在飞速膨胀,人与人之间的交往方式变得更加快捷、方便。人们渐渐习惯了用发短信的方法来传递信息进行沟通和交流,因为它有着收发方便、移动性能强、价格实惠、娱乐性强的优点,所以目前全世界短信的发送量以指数级的姿态日益增长。短信业务在快速发展的过程中,虽然给广大手机使用者带来了无数的便利和帮助;但是也带来了很多的问题,因其低廉的传输代价,很多商家和不法分子为了自己的利益,向手机用户发送短信,宣传商品或欺骗等内容的信息,使得用户收到很多不请自来且毫无用处的短信,它们有商业广告、政治宣传、骚扰短信,甚至是手机病毒、不良链接。有调查显示,85.8%参加调查的人曾收到过广告短信,有33.4%的人收到过黄色短信,45.7%的人收到过其他不良短信[1]。不法分子利用短信发布虚假信息实施欺诈,传播有害健康、欺诈、反动等形式的信息,对社会安全造成了不可忽视的危害,如广告信息、推销信息、折扣信息、欺诈信息、黄色信息等。这些短信被统称为垃圾短信[2]。严重的泛滥的垃圾短信不仅严重影响着人们的正常生活,也浪费了广大手机用户的精力和时间,降低了手机资源的利用率,影响到非垃圾短信的传输和手机网络的安全性,而且危害社会安全、毒害社会风气、影响用户的正常生活,严重影响社会稳定和公共安全,使得用户和电信运营商不得不寻找抵御垃圾短信侵袭的方法。正因为人类越来越离不开短信,垃圾短信的智能过滤技术的课题研究因此具有十分重大的意义。
1.2 垃圾短信
1.2.1 短信知识
短信[3](short message service),简称SMS,是使用者通过手机或其他电信终端直接发送或接收的文字或数字信息。伴随着时代的发展和进步,手机的普及率越来越高,从大哥大到小灵通,从小灵通到智能机,业务形态、信息内容、网络要素都在不断的改变和丰富,人们不再将发送短信仅仅视为数字手机的专属功能,而在这不断地改变过程中始终不会变化的只有两点:
1)短信的内容长度。短信信息内容始终是不超过160个英文或者数字字符,或者不超过70个汉字。
2)短信传递方式。当用户由于某些原因暂时无法接收短信内容时,短信将暂时存储在短信中心上,当用户手机重新登录进入网络时,短信会迅速的从短信中心转发传递到用户的手机上。
1.2.2 垃圾短信的定义和分类
垃圾短信[4],是指未经接收方许可的,包含违反法律法规规定或具有广告信息内容的,或是以恶意报复他人为目的的、侵害接收者通信自由、生活安宁或违背社会善良风俗的短信信息。
垃圾短信有以下4个明显的特点:
1)批量发送;
2)内容违法、违规或涉及广告宣传;
3)违背用户主观意志;
4)客观上造成对用户骚扰或其它权益的侵害[5]。
对垃圾短信的分类是垃圾短信过滤研究的基础,本文根据垃圾短信内容的不同,分为以下四类标准:
1)诈骗型。以发送虚假短信、问候、询问短信等方式引诱手机用户,对用户进行诈骗。
2)违法型。信息中含有黄色、暴力、赌博、恐吓、封建迷信等法律法规中明文禁止传播的内容,对接受者直接进行短信骚扰。
3)广告型。通过手机短信进行广告宣传,在未经接收者允许的情况下发送具有广告宣传性质的信息,通过短信推销、宣传其新产品或新服务。如:商业促销广告、房地产广告、代开税票广告、培训机构广告、贷款广告、办证广告、招工广告、理财广告等等。
4)SP业务型。短信业务提供商违反法律规定群发端短信业务,诱导用户订制短信业务。
1.2.3 垃圾短信产生的原因及特点
垃圾短信产生的原因多种多样,概括起来有如下几点:
1)巨大利益驱动。当前,发展迅速的短信业务带来了巨大的经济利益,许多不法分子和违规的运营商为了攫取丰厚的利润,通过各种违规途径利用垃圾短信获取巨大利润。
2)法律滞后。我国针对规范电信运营活动、互联网信息服务和使用电信及互联网的行为制订了《电信条例》和《互联网信息服务管理办法》的法规,但是,由于这些行政法律法规制订时,短信通信尚处于发展的初级阶段,随着通信信息技术迅速的发展,制定的法规内容已不能全部涉及发展的需要。一些不法分子就乘机钻短信法律的滞后问题的空子。
3)技术上存在缺陷。目前没有高效的技术、设备来从手机短信中充分过滤出垃圾短信。
4)SP行业缺乏自律意识。近年来,随着市场经济的迅猛发展,市场经济和社会发展的不平衡性和冲突性越来越大,部分基于技术创新发展的行业例如SP行业,无视和违反市场规则,缺乏自律意识。
5)通信服务提供商无法对短信内容监控到位。对垃圾短信的监控,主要是在短信发送到服务中心这个环节上进行监控。目前技术监控还不够完善和高效,无法识别以及过滤出垃圾短信的内容。而面对每天内容巨大的短信发布量,服务商是不可能采用人工监控。
垃圾短信具有的特点如下[6]:
1)短信文本内容中常常会出现网络用语、口语化短语和一些变形字等,如网络用语“LZ”意指“楼主”,贴吧常用语“法国青山”意指“发过请删”,变形字如“酱紫”表达“这样子”等。
2)垃圾短信中表达同一主题的短信文本集中会出现很多的相同特征词。
3)当一个热点话题或突发事件发生时,作为手机短信等特殊媒体传播速度非常快,它们的实时性较高,因此某一时间段内的“大类别”才是通常意义下的”热点”。
1.2.5 垃圾短信的危害和解决方案
垃圾短信的日益猖獗和泛滥,影响手机用户的正常生活、危害社会安全,严重影响社会稳定和公共安全,产生以下几种危害:
1)侵害用户通信自由,扰乱用户生活秩序,败坏社会道德风尚。
2)垃圾短信产业链的发展严重危害正规SP发展。垃圾短信促进了非法SP产业链的形成和发展,令正规SP的发展受到排挤和限制,严重危害正规SP发展。
3)引起社会信任危机,危害社会稳定和公共安全。用户收到各种骚扰安宁生活的垃圾短信,会对社会产生不信任感,造成社会信任危机,这将危害社会稳定和持续发展。
4)败坏服务运营商的产品品牌形象。垃圾短信与服务运营商存在一定联系,垃圾短信的泛滥会使用户对运营商产生信任危机,必然会败坏其品牌形象。
垃圾短信的危害不容小觑,对于垃圾短信的治理有以下几个解决方案:①加快对垃圾短信法律法规的建设;②加大对垃圾短信过滤拦截技术的研发力度;③打破运营商短信垄断制度,引进市场竞争机制;④开展垃圾短信专项治理活动,加大打击力度;⑤加强SP行业自律意识的宣传和管理;⑥学习国外治理垃圾短信的先进经验和技术;
本毕业设计系统是基于windows7操作系统,在Visual Studio2012和SQL2008平台上采用MVC框架实现。在分类实验中跨平台使用Java环境下的Weka进行分类研究。
本分类系统旨在针对治理垃圾短信的技术屏障途径来进行研究和实现中文垃圾短信分类器模型。以中文文本分类算法为基础,针对垃圾短信特点,对文本分类算法进行改进和扩展,以实现一个具有较高实用价值的分类器模型,并将该分类器模型在Web平台下实现系统。在本分类系统中结合不同的特征提取方法,使用朴素贝叶斯、支持向量机、决策树和多分类器集成算法的分类器模型对垃圾短信进行分类,得出不同组合的分类效果。实验结果所得支持向量机分类器模型是最优的。
在短信文本分类实验中针对垃圾短信的特点提出了改进方法,但是改进方法在一定程度上还是有缺陷和不足的,使用的TFIDF改进是基于短文本中特征词的词频对分类的影响不大的假设基础上所做的研究,具有一定的片面性。对于分类的改进还需进一步研究,以达到更好的分类结果。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/3073.html