海量媒体短文本的舆情跟踪研究(源码)

随着我国互联网技术的迅速发展,网络新闻、微博、微信等新兴互联网媒体的随之快速地兴起,社会舆情的传播速度也变得越来越快,网络舆情很大程度上体现了公众对热点事件的见解或情绪。因此,加强舆情信息的监控,及时的掌握舆情动态、利用现代化的信息技术促进网络舆情信息的健康有序发展是各级政府部门需要面对的重要工作。针对海量媒体短文本先是使用Master与Slave集群网络爬虫进行数据采集,利用Ansj工具进行分词和TF-IDF技术提取出关键词,并对数据进行清洗、预处理;采用主题文本模型LDA模型与K-Means算法联合进行聚类分析;最后对处理结果进行优化,使用开源的Echart进行可视化展示,让用户可以通过系统得到当今舆情的变化及发展趋势。关键词 短文本,LDA模型,舆情,K-Means 2017年4月,《人民的名义》刷新了一个又一个收视率,无论是微博还是微信朋友圈,都被一部政治题材的电视剧刷屏了,这一部反腐剧一经开播就被顶上了热收榜。截至4月9日,《人民的名义》收视率破3,市场占有率30%,网络播放量突破4亿,该剧最终播放量将达到95亿。《人民的名义》不仅拥有搞得收视率,还有相当好的口碑,至4月11日,百度搜索“人民的民义”相关数据量22700000条,微博话题“达康书记”阅读量2500万。以“人民的民义”,“达康书记”,“反腐”为关键词进行全网搜索,共有1250279篇相关素材。其中微博1097329篇,网站46163篇,新闻29986篇。主要的报道集中在新浪微博、微信、百度新闻、新浪博客、百度贴吧等几大站点。
目 录
1 绪论 1
1.1 研究背景 1
1.2 目的和意义 2
1.3 目前在国内外研究 2
2 开发技术介绍 2
2.1 网络爬虫 2
2.2 文本挖掘预处理 4
2.3 ANSJ分词算法 5
2.4 TFIDF算法 5
2.6 KMEAN聚类 6
2.7 LDA主题模型 6
3研究对象分析 8
3.1 新闻数据 8
3.2 微博数据 8
4舆情系统概要分析 8
4.1 系统的可行性分析 8
4.2 系统总体功能分 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
析 8
5 舆情分析系统设计 9
5.1 系统的路线 9
5.2 文本集接口分析 9
5.3 舆情文本数据抓取集群 11
5.4 文本集预处理 13
5.5 舆情分析算法 14
6 舆情分析系统的实现 15
6.1 舆情分析系统主界面 16
6.2 舆情分析系统模型训练 16
6.3 舆情分析系统模型加载 17
6.4 舆情分析系统训练效果 18
6.5 舆情分析加载新文档判断主题 18
结 论 20
致 谢 21
参 考 文 献 22
附录A 发表两篇论文与一份软件著作权 23
附录B 获奖证书 29
1 绪论
“人以群分,物以类聚”是永恒不变的真理,尤其在这个信息快要爆炸的时代,谁能够掌握时代的动向,谁就能够引领这个时代,那么如何去掌握时代的动向?成为目前政府和企业等机构苦苦研究的问题,本项目主要分析人与人之间交互的海量文本媒体信息,目的是为了分析舆情动向,从而更好的解决社会问题。
1.1 研究背景
随着网络技术及通信技术的快速发展,使得近几年来社交网络、物联网、移动互联网等的应用得到了广泛的发展,同时也扩大了数据的应用范畴,各种数据以TB级的快速增长。在这个时代,用户通过互联网平台表达社情民意,体现用户的意愿,评论和态度。从古代的“防民之口甚于防川”,到如今的网络时代,“人人都有了自己的麦克风”。舆情,就是一个风向标。舆情分析,就是针对民众态度的收集和整理,发现相关的意见倾向,客观反映社会的现实状态,如下项目中将举出两个例子,来重点突出舆情对群众的影响,从而纵观全局的分析社会。
2017年4月,《人民的名义》刷新了一个又一个收视率,无论是微博还是微信朋友圈,都被一部政治题材的电视剧刷屏了,这一部反腐剧一经开播就被顶上了热收榜。截至4月9日,《人民的名义》收视率破3,市场占有率30%,网络播放量突破4亿,该剧最终播放量将达到95亿。《人民的名义》不仅拥有搞得收视率,还有相当好的口碑,至4月11日,百度搜索“人民的民义”相关数据量22700000条,微博话题“达康书记”阅读量2500万。以“人民的民义”,“达康书记”,“反腐”为关键词进行全网搜索,共有1250279篇相关素材。其中微博1097329篇,网站46163篇,新闻29986篇。主要的报道集中在新浪微博、微信、百度新闻、新浪博客、百度贴吧等几大站点。
同年4月6日到7日,中国国家主席习近平和美国总统特朗普,在海湖庄园实现了首次会晤,引发举世瞩目。新华网、人民日报、央视新闻等多家主流媒体对此进行报道。截至4月11日,百度搜索“习特会”,相关搜索达1180000条,微博话题#习特会#阅读量3.2亿,讨论量6.3万。
由上面的例子可以看出现在互联网在不断的影响我们的生活,一件值得讨论的事情,可以在互联网上快速的传开,从例子中也可以看出微博已经成了现在报道媒体中比较流行的平台,从而也揭示项目中的重点研究对象“微博”。
1.2 目的和意义
本项目的目的是通过分析海量媒体短文本,如微博、新闻等短文本数据流,从而分析出社会的热点事件以及存在的问题与矛盾,以便为政府改变民生提供一个可靠的依据去做出正确的决策。
1.3 目前在国内外研究
主题模型在慢慢的发展中开始划分了几种类别,第一种是无监督无层次结构,如PLSA、LDA、CTM模型,其中CTM模型主要解决LDA原始模型中话题在文档中出现相关性的缺点,第二种,无监督有层次结构,如HLDA、HDP、HPAM,其中标准LDA模型主题的个数K是已经知道的,然而很多时候对于确定主题K的个数的大小是一件非常困难的事,而对于HLDA则可以自动的获取K的个数。第三种,有监督无层次结构,其中主要包括SLDA, MMLDA、AuthorMode、Labeled LDA、PLDA模型等。主题的模型的发展越来越接近成熟,也越来越智能化。
2 开发技术介绍
2.1 网络爬虫
进行海量媒体短文本数据分析的第一步便是数据获取模块,就像做菜的时候必需要有做菜的原材料,否则便是巧妇难做无米之炊。因此数据获取模块显的尤其的重要,
对于数据获取本项目从以下角度进行详细的论述:
2.1.1 使用WinShark进行数据接口分析
/
图2.1 WinShark网络接口分析

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1304.html

好棒文