大数据的网络舆情分析的研究与实现(源码)【字数:14835】

摘 要随着社会的进步,科技的飞速发展,当今的数据需求日渐增加,在大数据背景下,传统的数据分析方法显然已经无法满足现在海量数据的筛选工作,所以人们就需要依靠Python语言从海量的数据库中筛选出有用的信息,并且可以让数据实现可视化,从而找到众多数据的内在联系,找寻出数据隐藏的内部规律,帮助人们进行未来数据预测的工作。其次,大数据不仅在大公司或者高端科技中运用广泛,在日常生活中大数据也逐渐广泛的运用起来,人们的一言一行都可以用大数据来表示,所以大数据筛选技术也越来越趋近于平常化,这也是Python运用的如此广泛的根本原因。本次课题的选择也是非常贴合人们的日常生活,社交APP的广泛运用,导致社交APP在人们生活中所占的比重日渐增加,所以为了了解新浪微博舆情的各种信息与特征,我们基于Python技术,经过一系列可视化设计的实现,得出了部分新浪微博舆情的发布时间、情感等一系列相关数据信息。本论文课题为基于大数据的网络舆情分析的研究与实现,主要有数据获取、算法实现、数据存储、数据结果展示等功能模块。在windows7的系统环境下,使用的开发环境为Anaconda,后台数据库采用MySQL Server 5.7,使用Python语言编程,该设计较为实用,安全性较高。经过测试,本设计可以实现数据爬取到结果展示等功能的基本要求,提高了对网络舆情数据分析的准确度;简化了传统代码的繁琐复杂,使设计更精简;因此数据获取及结果分析的高效方便促进了资源的合理配置,提高了经济效益。
目 录
第1章 前言 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.3 研究目的和意义 2
1.3.1 研究目的 2
1.3.2 研究意义 2
1.4 全文组织结构 3
第2章 程序分析 4
2.1 设计内容概述 4
2.2 需求分析 4
2.3 可行性分析 5
2.3.1 技术可行性 5
2.3.2 经济可行性 5
2.3.3 操作可行性 5
第3章 程序的总体设计与详细设计 6
3.1 程序总体设计 6 *好棒文|www.hbsrm.com +Q: *351916072* 

3.2 数据获取模块设计 7
3.3 数据库模块设计 8
3.3.1 数据库设计原则 8
3.3.2 数据库需求分析与概要设计 8
3.4 代码模块设计 9
3.4.1 正则表达式的设计 9
3.4.2 对数据库操作部分的设计 9
3.4.3 解析网页的设计 9
3.4.4 多线程的设计 10
第4章 爬虫的实现与应用 11
4.1 编码问题 11
4.2 正则表达式的使用实例 11
4.3 读取网页信息 13
4.4 网页解析与多线程的实现 13
4.4.1 网页解析 13
4.4.2 多线程与锁 14
4.5 程序中数据库的应用 16
4.6 数据可视化的应用 17
第5章 网络舆情分析 23
5.1 数据爬取量分析 23
5.2 评论时间分析 24
5.3 文本情感分析 25
5.4 词云分析 25
5.5 舆情分析小结 27
第6章 总结与展望 28
6.1 总结 28
6.2 展望 28
参考文献 29
致 谢 30
第1章 前言
1.1 研究背景
互联网与人们的日常生活有着越来越紧密的联系,网络也成为人们表达意愿的重要表达场所。不容否认的是,自由言论使网络变得越来越迷人,但非理性的言论使网络舆论干预现实的能力变得越来越脆弱。深入的分析网络舆情的成因和导致的结果与舆情监控和评论引导的方向相结合,这可以使我们在网上引导舆论的工作中更加得心应手。而新浪作为一家服务于人民的网络社交媒体公司,已成为最受人喜爱且舆情较多的社交APP。
近年来随着新媒体、自媒体的兴起,网络社交网站也在飞速发展,通过不完全统计截止2018年新浪的微博舆情约4亿[1]。在海量的数据背景下,要想快速精确地获取数据并筛选,以传统的数据筛选途径与方法还有诸多的局限性,所以这就导致如今的Python技术发展的更加成熟。基于这种大背景下,本人的课题选择了以新浪微博作为数据来源,设计出基于大数据的网络舆情分析的研究与实现的毕业设计。最后根据学校中所学到的知识,以及自己对于数据分析的热爱,自学了一些相关知识完成了此次的课题。
1.2 国内外研究现状
当今世界,互联网已成为了思想文化的信息集散地和社会舆论的放大器[2]。互联网的数据非常的庞大并且复杂,要想对网络数据进行分析利用,首先需要快速、全面地从互联网上获取信息,并对这些复杂的信息进行初步的处理并存储在本地以便于后期的分析。在获取互联网数据后才能进一步地利用自然语言处理技术、机器学习技术以及数据分析与挖掘技术等处理技术根据需求对庞大的舆情数据进行多方面分析,从中提取关于热点、重点和事件的各种知识、特征及发展趋势,辅助舆情分析工作人员快速的生成舆情分析报告[3]。网络舆情作为一种特别的互联网信息管理对象,一直都备受关注。各个国家,尤其是发达国家,如美国、加拿大等,有着相对成熟的网络舆情分析技术和手段,能够对突发事件网络舆情进行实时监控,所以有很多值得我们学习和借鉴的做法与经验。
从国外的研究上来看,他们的研究具有以下特点:舆情相关的研究起步比较早,甚至在上世纪初就已经开始了对舆情与网络科学的研究,为现在的网络舆情研究提供了良好的理论基础;社会科学研究与自然科学研究的结合较为密切,尤其是关于社会网络舆情方面的研究;理论应用水平较高,不仅仅是在国家政策的方面,而且还在行业规范和市场应用上都有体现[4]。舆情研究的角度也比国内更加多元化。
国外的学者们主要是围绕:“网络舆情的生成机理”,如凯斯桑斯坦通过对60个政治网站进行随机研究发现,舆论在网络上聚集,发生群内同质化、群际异质化,易造成群体意见极化倾向[5]。Dominick指出,网络不但具有信息传递的功能,而且还发挥着信息纽带的作用,有时候其他信息渠道发布的舆论信息并不能引起公众的信任,而处于风险状态下的人们倾向于通过网络舆论来求证信息的可信性,换句话说就是网络舆论容易为受影响个体带来社会支持等等[6]。
在国内,近十年网络舆情风起云涌,变化多端,但在国内学术对其真正展开深入研究的都比较晚,所以网络突发社会舆情文献并不多,在CNKI收录的文献中,以网络舆情等相关主题词检索结果显示,该类课题文献数量有非常明显的上升趋势,由此在国内而言,网络舆情正在逐步受到学者们的重视和研究意向[7]。但就目前来说国内传统的网络舆情分析大多使用Java语言进行分析,且很少带有清晰的图表展示,分析结果透明度较低,灵活性较弱。本设计在原有的基础上利用新兴的大数据技术,获取近期热点话题、内容及评论,对获取的数据进行多方面分析,得到更加准确地结果,更好的掌握网络舆情发展趋势,能够有效避免突发事件的发生,以及引导舆情发展方向。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/220.html

好棒文