微博内容的水军识别
摘要:随着微博等新媒体的发展,出于网络公关与营销等原因,网络水军也呈现剧增的形式,造成网络资源的被侵占及舆情走势不真实等影响。本文基于新浪微博的内容,利用机器学习的SVM算法进行建模,并实现微博水军的分类与识别。通过对大量微博数据的分析,围绕数据挖掘、数据分类、数据分词、特征提取、建立识别分类器模型并测试结果展开,使用1200条样本数据进行模型训练,200条测试数据进行识别验证。研究结果表明本文提出的方法能够成功识别3类水军,平均准确率可达88%,误差在5.3%左右。
目录
摘要1
关键词1
Abstract1
Key words1
1选题背景1
1.1问题的提出1
1.2国内外研究状况1
1.3研究的目的和内容2
1.4研究内容的可行性分析2
2 开发平台及应用技术2
2.1 Java 软件概述2
2.2 分词系统概述 3
2.3 b/s网站的建立 3
2.4 技术路线图3
3 微博数据分析研究4
3.1正常用户与水军分析 4
3.2 水军用户分类分析4
4 新浪微博数据获取5
4.1基于新浪API 端口的获取5
4.2获取结果及统计分析6
5 基于B/S 的网站开发6
5.1网站开发的目的 6
5.2 网站开发的功能6
6数据处理与算法识别6
6.1文本内容预处理7
6.2特征提取8
6.3分类算法(SVM)9
7应用实现与结果分析12
8 总结与反思21
致谢22
参考文献22
基于微博内容的水军识别
网络工程 孔佳玮
引言
1.选题背景
1.1 问题的提出
随着科技时代的大跃进,微博等新媒体已经被广泛的使用,这使人们的生活发生了巨大的改变,也使信息传播的模式发生了改变。人们利用微博可以接收信息,还能通过这个平台创造信息,发布
*好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^*
信息。但是这些优点的背后,也潜藏着一些危害,微博上的信息良莠不齐,这导致许多热点事件的趋势走偏,舆情的走势则朝着水军幕后的指使者所期望的方向发展。因此如何识别这些微博水军对于控制网络舆情,提高网络信息质量,创造良好的媒体平台起到至关重要的作用。
国内外研究状况
当然许多知名大学和研究机构也对水军识别进行了深入的研究,如宾州州立大学、伊利诺伊芝加哥大学、伊利诺伊大学香槟分校、加州大学圣塔芭芭拉校、美国麻省理工媒体实验室、印度理工大学等。
1.3 研究的目的和内容
1.3.1研究目的
1)降低水军传播垃圾信息的程度,避免一些网络暴力产生的恶劣影响事件的发生。
2)提高网民获取信息的价值,传递绿色环保积极的正能量。
3)对水军的分类可以做舆情分析,更好的把握其走向,利于宏观调控。
4)避免大量偏激舆论的产生,保证社会网络治安的安定。
5)提供一个良好的无内容污染的社交媒体平台。
1.3.2社科调查研究
1)通过对大量的微博数据的观察研究,分析正常用户与水军的区别。
2)通过对水军用户的观察进行水军用户的分类。
3)根据出现的水军问题进行思考为什么有什么目的。
4)分析不同类别的水军特点进行技术处理从而识别。
1.3.3技术实现内容
1)微博内容数据获取
对大量的微博内容数据的挖掘存储作为实验数据集。主要利用新浪微博提供的API平台进行授权处理后获取数据。
2)数据的处理
从博主的发文内容和评论内容进行文本分词降维,主要用哈希MAP算法(HashMap)进行词语匹配优化与特征词的权重计算。
3)建立识别模型
利用基于向量机算法(SVM)根据特征词的权重信息寻找最优二平面,通过核函数进行分类器模型的建成。
4)通过网站的搭建从微博中提取最新数据做为检测数据集。通过编写向量机算法做检测用户内容是否为水军。
5)搭建基于B/S的网页用于与微博端口相连以及后续显示数据结果。
1.4 研究内容的可行性分析
1)经济可行性
微博是面向大众的社交平台,数据的挖掘的成本以及课题相关方面的研究成本不是低,符合现在的课题研究的经费支出。信息化的如今,可利用的网络资源也相对充足,所以经济上的可行的。
2)操作可行性
因为识别微博水军主要的技术要求是对数据库的建立,对文本的建模以及文本内容的数据处理方面,而我们大学期间也学习了相关的知识,数据库,数据结构等,再加上有大量的资料可供学习,所以可以站在巨人的肩膀上看微博水军识别就具有了操作上的可行性。
2. 开发平台及应用技术
2.1 Java软件概述
网络上的信息内容表现形式大多是一些死板的HTML文档,这对于用WEB浏览的人们来说非常的不可忍受,而且软件开发人员也希望能够在web上创建一类不需要考虑软硬件平台就可执行的应用程序,所以Java就运用而生了。它具有跨平台、动态Web、Internet计算的优点[6]。所以Java被广泛接受并推动了Web的迅速发展。而由于本文需要基于web做微博数据获取所以选择JavaEE这个开发软件。
2.2 分词系统概述
由于对微博数据进行特征提取时要降维不能使用所有的句子,所以要运用分词系统进行关键词提取来辅助降维。本文使用的ICTCLAS分词器[7]是一个开源的中文分词系统,它结合了词典分词和文法分析算法的优点,利用哈希索引进行中文分词[8]。具有较优的词语分辨能力。该分词系统通过JNI接口与java相连。
2.3 b/s网站的建立
2.3.1 网站的开发
网站的开发主要为了服务于微博数据的获取及数据处理后的网页直观显示。就本文而言,由于软件选用了java,所以用JSP技术做开发的,比较方便。Web服务器在遇到访问请求时,先执行java程序段,执行得到的结果连同JSP文件中的HTML代码一起返回给用户,数据存入数据库待用[9]。
2.3.2 与微博的对接步骤
1)添加网站地址,验证所有权。
2)部署微连接产品。
3)开发完应用后,通过我的应用提交审核。
4)网站审核通过,接入完成。
2.4技术路线流程图
图2.1 技术路线
3. 微博数据分析研究
目录
摘要1
关键词1
Abstract1
Key words1
1选题背景1
1.1问题的提出1
1.2国内外研究状况1
1.3研究的目的和内容2
1.4研究内容的可行性分析2
2 开发平台及应用技术2
2.1 Java 软件概述2
2.2 分词系统概述 3
2.3 b/s网站的建立 3
2.4 技术路线图3
3 微博数据分析研究4
3.1正常用户与水军分析 4
3.2 水军用户分类分析4
4 新浪微博数据获取5
4.1基于新浪API 端口的获取5
4.2获取结果及统计分析6
5 基于B/S 的网站开发6
5.1网站开发的目的 6
5.2 网站开发的功能6
6数据处理与算法识别6
6.1文本内容预处理7
6.2特征提取8
6.3分类算法(SVM)9
7应用实现与结果分析12
8 总结与反思21
致谢22
参考文献22
基于微博内容的水军识别
网络工程 孔佳玮
引言
1.选题背景
1.1 问题的提出
随着科技时代的大跃进,微博等新媒体已经被广泛的使用,这使人们的生活发生了巨大的改变,也使信息传播的模式发生了改变。人们利用微博可以接收信息,还能通过这个平台创造信息,发布
*好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^*
信息。但是这些优点的背后,也潜藏着一些危害,微博上的信息良莠不齐,这导致许多热点事件的趋势走偏,舆情的走势则朝着水军幕后的指使者所期望的方向发展。因此如何识别这些微博水军对于控制网络舆情,提高网络信息质量,创造良好的媒体平台起到至关重要的作用。
国内外研究状况
当然许多知名大学和研究机构也对水军识别进行了深入的研究,如宾州州立大学、伊利诺伊芝加哥大学、伊利诺伊大学香槟分校、加州大学圣塔芭芭拉校、美国麻省理工媒体实验室、印度理工大学等。
1.3 研究的目的和内容
1.3.1研究目的
1)降低水军传播垃圾信息的程度,避免一些网络暴力产生的恶劣影响事件的发生。
2)提高网民获取信息的价值,传递绿色环保积极的正能量。
3)对水军的分类可以做舆情分析,更好的把握其走向,利于宏观调控。
4)避免大量偏激舆论的产生,保证社会网络治安的安定。
5)提供一个良好的无内容污染的社交媒体平台。
1.3.2社科调查研究
1)通过对大量的微博数据的观察研究,分析正常用户与水军的区别。
2)通过对水军用户的观察进行水军用户的分类。
3)根据出现的水军问题进行思考为什么有什么目的。
4)分析不同类别的水军特点进行技术处理从而识别。
1.3.3技术实现内容
1)微博内容数据获取
对大量的微博内容数据的挖掘存储作为实验数据集。主要利用新浪微博提供的API平台进行授权处理后获取数据。
2)数据的处理
从博主的发文内容和评论内容进行文本分词降维,主要用哈希MAP算法(HashMap)进行词语匹配优化与特征词的权重计算。
3)建立识别模型
利用基于向量机算法(SVM)根据特征词的权重信息寻找最优二平面,通过核函数进行分类器模型的建成。
4)通过网站的搭建从微博中提取最新数据做为检测数据集。通过编写向量机算法做检测用户内容是否为水军。
5)搭建基于B/S的网页用于与微博端口相连以及后续显示数据结果。
1.4 研究内容的可行性分析
1)经济可行性
微博是面向大众的社交平台,数据的挖掘的成本以及课题相关方面的研究成本不是低,符合现在的课题研究的经费支出。信息化的如今,可利用的网络资源也相对充足,所以经济上的可行的。
2)操作可行性
因为识别微博水军主要的技术要求是对数据库的建立,对文本的建模以及文本内容的数据处理方面,而我们大学期间也学习了相关的知识,数据库,数据结构等,再加上有大量的资料可供学习,所以可以站在巨人的肩膀上看微博水军识别就具有了操作上的可行性。
2. 开发平台及应用技术
2.1 Java软件概述
网络上的信息内容表现形式大多是一些死板的HTML文档,这对于用WEB浏览的人们来说非常的不可忍受,而且软件开发人员也希望能够在web上创建一类不需要考虑软硬件平台就可执行的应用程序,所以Java就运用而生了。它具有跨平台、动态Web、Internet计算的优点[6]。所以Java被广泛接受并推动了Web的迅速发展。而由于本文需要基于web做微博数据获取所以选择JavaEE这个开发软件。
2.2 分词系统概述
由于对微博数据进行特征提取时要降维不能使用所有的句子,所以要运用分词系统进行关键词提取来辅助降维。本文使用的ICTCLAS分词器[7]是一个开源的中文分词系统,它结合了词典分词和文法分析算法的优点,利用哈希索引进行中文分词[8]。具有较优的词语分辨能力。该分词系统通过JNI接口与java相连。
2.3 b/s网站的建立
2.3.1 网站的开发
网站的开发主要为了服务于微博数据的获取及数据处理后的网页直观显示。就本文而言,由于软件选用了java,所以用JSP技术做开发的,比较方便。Web服务器在遇到访问请求时,先执行java程序段,执行得到的结果连同JSP文件中的HTML代码一起返回给用户,数据存入数据库待用[9]。
2.3.2 与微博的对接步骤
1)添加网站地址,验证所有权。
2)部署微连接产品。
3)开发完应用后,通过我的应用提交审核。
4)网站审核通过,接入完成。
2.4技术路线流程图
图2.1 技术路线
3. 微博数据分析研究
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/665.html