微博热评的数据挖掘与分析(附件)
年 月 日摘 要随着科技的高速发展,网络信息数据呈爆炸式增长。云计算、物联网、人工智能以及大数据等也逐渐成为热门话题。对数据的有效处理及利用成为了人们关注的焦点。微博作为一种分享信息、传播信息以及获取信息的网络平台,它能够实现实时分享、传播、交流多种类型的信息,包括文字、链接、视频、图片以及表情符号等。微博上广泛的信息包含了大量有用数据,对微博数据的分析及有效的应用是国内外网络信息处理的热点。本设计的研究目标是通过对微博热门话题的内容进行挖掘,获取当下用户关注的热点话题及话题下用户的有效文本评论,利用自然语言处理技术对文本进行情感分析获得情感极性并形成词云,以可视化状态展示给用户。本设计采用的开发工具是Pycharm,利用python语言实现数据获取、数据预处理、数据建模等一系列操作。本设计基本实现了对微博热评的数据挖掘与分析,微博每天产生地大量的即时信息,通过挖掘与分析以可视化状态展示,对个人、企业乃至政府的决策有极大的使用价值,对微博中舆情控制、解决热门问题有重大意义。
目 录
第1章 前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 2
1.3研究目的及意义 2
1.4全文组织结构 2
第2章 python数据挖掘概述 4
2.1数据挖掘综述 4
2.2 python数据挖掘综述 5
2.3 数据挖掘算法 5
2.3.1 Kmeans算法 5
2.3.2 SVM算法 6
2.3.3决策树算法 6
2.3.4人工神经网络算法 6
2.4数据预处理简介 7
2.4.1数据清理 7
2.4.2数据集成 8
2.4.3数据变换 8
2.4.4数据归约 8
2.5数据建模简介 8
第3章 python网络爬虫技术概述 10
3.1 API简介 10
3.2网络爬虫技术简介 10
3.4常用python类库 11 *好棒文|www.hbsrm.com +Q: ^351916072*
3.4.1 Requests库 11
3.4.2 Pandas库 11
3.4.3 Matplotlib库 11
3.4.4 Jieba 分词库 11
第4章 情感分析及关键技术 13
4.1情感词量化 13
4.2情感极性分析 13
4.3 NLP分类算法简介 13
4.3.1 snownlp类库简介 14
4.3.2朴素贝叶斯算法 15
第5章 数据可视化概述 17
5.1数据可视化简介 17
5.2可视化工具 17
第6章 基于数据挖掘的微博热门话题情感分析 18
6.1微博热门话题情感分析综述 18
6.2数据挖掘工具 18
6.3数据来源 18
6.4数据获取 19
6.5数据预处理 24
6.6 snownlp类库情感极性分析 24
6.7词频分析 26
第7章 总结与展望 28
7.1总结 28
7.2展望 28
参 考 文 献 29
致 谢 31
第1章 前言
1.1研究背景
科学技术的进步给我们的生活带来了很大的改变,其中近年来发展变化最大的就是我国的互联网行业,网络越来越成为人们生活中必不可少的一项,其影响范围也不断扩大,越来越多的人开始关注这个行业。2019年2月28日中国网信网发布文章,中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》显示,截至到2018年12月,我国的网民数量已达到8.29亿人,全年新增网民为5653万人,互联网的普及率占全国人口的59.6%,相比2017年底提升了3.8个百分点,同时我国在基础资源、5G、量子信息、人工智能、云计算、大数据、区块链、虚拟现实、物联网标识、超级计算等领域发展势头向好[1]。该报告的精确数值及描述已经证实,网络已经成为人们不可或缺的一部分。网络上由此产生大量的数据,对任何人来说都是很重要的资源。
“热点话题”作为微博中社会热点事件来源的重要模块,受到众多微博用户的关注。这些热点问题正是大众关注的问题,微博用户通过一次次转发评论,产生了大量带有主观色彩的数据信息,这些带有个人态度的信息以文本、图片或者视频的方式不断传播,可能会影响事件的走向。因此通过对微博热评的数据挖掘与分析,发现热点话题中有意义的评论并进行情感分析,对微博中舆情控制、解决热门问题有重大意义。
1.2国内外研究现状
1.2.1国外研究现状
2006年Evan Williams、BelizeStone以及JackDorsey正式推出Twitter,这便是最早期的微博网站。随后Facebook,Google、bbs等得到蓬勃发展。经过一年的发展,2007年Twitter的规模并没有扩展的很快,但并不妨碍Twitter作为当时最早兴起的微博网站拥有其他相似网站无法超越的功能,即直接提供和交换信息。到目前为止Twitter仍然是极为重要的社交网站,很多名人包括当届美国总统也很青睐该网站。国外很早便开始了对Twitter数据的挖掘研究,通过情感分析进行舆情监控。2011年2月利比亚班加西出现暴动,反政府组织利用Facebook沟通成立自由联盟,关注者瞬间达15,000人,并呼吁人们参加反政府[2]。2012年通过Twitter的搜索API搜集并提取用户的实时信息,对用户情感分析进而赢得总统大选。此外基于数据挖掘的相关算法,国外已经相当成熟。决策树算法、kmeas算法、分类与回归算法、Aprior算法等都是数据挖掘的经典算法。例如:Popescu[3]提出了有监督的机器学习方法,来检测Twitter中的评论信息;BergerWolf[4]提出了根据相似度将实体划分为元组的方法用以解决动态社会网络分析问题;Mario Cataldi等[5]提出基于时序和社会关系评价的Twitter中新热点话题检测方法。由此可见,国外在微博数据挖掘及使用方面已经相当成熟。
1.2.2国内研究现状
继国外大量网站诞生以来,国内的微博也迅速发展起来。虽然我国微博起步相对较晚,但近年来也出现了爆炸式的发展状态,但对微博大量数据的研究还不够广泛。2009年8月中国出现了自己的实现信息即时交流的平台,是新浪推出的,因此命名为新浪微博。自此微博开始在我国兴起,新浪微博也得到了广大人民群众的喜爱,越来越多的人注册微博、使用微博。经过十多年的发展,微博功能也持续完善,微博也成了茶余饭后必要的消遣,人们通过微博实时交流,可以在任何时间、任何地点分享自己的故事,了解其他的信息,微博真正的实现了实时信息共享。但是中国微博毕竟发展的时间不长,互联网相关技术兴起、发展较国外相对缓慢,在中文微博内容挖掘方面的研究并没有十分深入,对微博数据挖掘进行情感方面研究的文献主要包括两个方面:一是情感分类,二是情感分析。如梁军等[6]基于深度学习的微博情感分析,张朝龙等[7]基于协同过滤和文本相似性的Web文本情感极性分类算法。在微博数据获取领域中,廉捷[8]等人提出利用新浪微博API与传统网络爬虫相结合的方法获取微博数据。由此可知,国内在应用微博数据分析问题方面开始得到重视,大量相关研究正在兴起,但在微博热门话题的情感分析方面还需要深入的研究。
目 录
第1章 前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 2
1.3研究目的及意义 2
1.4全文组织结构 2
第2章 python数据挖掘概述 4
2.1数据挖掘综述 4
2.2 python数据挖掘综述 5
2.3 数据挖掘算法 5
2.3.1 Kmeans算法 5
2.3.2 SVM算法 6
2.3.3决策树算法 6
2.3.4人工神经网络算法 6
2.4数据预处理简介 7
2.4.1数据清理 7
2.4.2数据集成 8
2.4.3数据变换 8
2.4.4数据归约 8
2.5数据建模简介 8
第3章 python网络爬虫技术概述 10
3.1 API简介 10
3.2网络爬虫技术简介 10
3.4常用python类库 11 *好棒文|www.hbsrm.com +Q: ^351916072*
3.4.1 Requests库 11
3.4.2 Pandas库 11
3.4.3 Matplotlib库 11
3.4.4 Jieba 分词库 11
第4章 情感分析及关键技术 13
4.1情感词量化 13
4.2情感极性分析 13
4.3 NLP分类算法简介 13
4.3.1 snownlp类库简介 14
4.3.2朴素贝叶斯算法 15
第5章 数据可视化概述 17
5.1数据可视化简介 17
5.2可视化工具 17
第6章 基于数据挖掘的微博热门话题情感分析 18
6.1微博热门话题情感分析综述 18
6.2数据挖掘工具 18
6.3数据来源 18
6.4数据获取 19
6.5数据预处理 24
6.6 snownlp类库情感极性分析 24
6.7词频分析 26
第7章 总结与展望 28
7.1总结 28
7.2展望 28
参 考 文 献 29
致 谢 31
第1章 前言
1.1研究背景
科学技术的进步给我们的生活带来了很大的改变,其中近年来发展变化最大的就是我国的互联网行业,网络越来越成为人们生活中必不可少的一项,其影响范围也不断扩大,越来越多的人开始关注这个行业。2019年2月28日中国网信网发布文章,中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》显示,截至到2018年12月,我国的网民数量已达到8.29亿人,全年新增网民为5653万人,互联网的普及率占全国人口的59.6%,相比2017年底提升了3.8个百分点,同时我国在基础资源、5G、量子信息、人工智能、云计算、大数据、区块链、虚拟现实、物联网标识、超级计算等领域发展势头向好[1]。该报告的精确数值及描述已经证实,网络已经成为人们不可或缺的一部分。网络上由此产生大量的数据,对任何人来说都是很重要的资源。
“热点话题”作为微博中社会热点事件来源的重要模块,受到众多微博用户的关注。这些热点问题正是大众关注的问题,微博用户通过一次次转发评论,产生了大量带有主观色彩的数据信息,这些带有个人态度的信息以文本、图片或者视频的方式不断传播,可能会影响事件的走向。因此通过对微博热评的数据挖掘与分析,发现热点话题中有意义的评论并进行情感分析,对微博中舆情控制、解决热门问题有重大意义。
1.2国内外研究现状
1.2.1国外研究现状
2006年Evan Williams、BelizeStone以及JackDorsey正式推出Twitter,这便是最早期的微博网站。随后Facebook,Google、bbs等得到蓬勃发展。经过一年的发展,2007年Twitter的规模并没有扩展的很快,但并不妨碍Twitter作为当时最早兴起的微博网站拥有其他相似网站无法超越的功能,即直接提供和交换信息。到目前为止Twitter仍然是极为重要的社交网站,很多名人包括当届美国总统也很青睐该网站。国外很早便开始了对Twitter数据的挖掘研究,通过情感分析进行舆情监控。2011年2月利比亚班加西出现暴动,反政府组织利用Facebook沟通成立自由联盟,关注者瞬间达15,000人,并呼吁人们参加反政府[2]。2012年通过Twitter的搜索API搜集并提取用户的实时信息,对用户情感分析进而赢得总统大选。此外基于数据挖掘的相关算法,国外已经相当成熟。决策树算法、kmeas算法、分类与回归算法、Aprior算法等都是数据挖掘的经典算法。例如:Popescu[3]提出了有监督的机器学习方法,来检测Twitter中的评论信息;BergerWolf[4]提出了根据相似度将实体划分为元组的方法用以解决动态社会网络分析问题;Mario Cataldi等[5]提出基于时序和社会关系评价的Twitter中新热点话题检测方法。由此可见,国外在微博数据挖掘及使用方面已经相当成熟。
1.2.2国内研究现状
继国外大量网站诞生以来,国内的微博也迅速发展起来。虽然我国微博起步相对较晚,但近年来也出现了爆炸式的发展状态,但对微博大量数据的研究还不够广泛。2009年8月中国出现了自己的实现信息即时交流的平台,是新浪推出的,因此命名为新浪微博。自此微博开始在我国兴起,新浪微博也得到了广大人民群众的喜爱,越来越多的人注册微博、使用微博。经过十多年的发展,微博功能也持续完善,微博也成了茶余饭后必要的消遣,人们通过微博实时交流,可以在任何时间、任何地点分享自己的故事,了解其他的信息,微博真正的实现了实时信息共享。但是中国微博毕竟发展的时间不长,互联网相关技术兴起、发展较国外相对缓慢,在中文微博内容挖掘方面的研究并没有十分深入,对微博数据挖掘进行情感方面研究的文献主要包括两个方面:一是情感分类,二是情感分析。如梁军等[6]基于深度学习的微博情感分析,张朝龙等[7]基于协同过滤和文本相似性的Web文本情感极性分类算法。在微博数据获取领域中,廉捷[8]等人提出利用新浪微博API与传统网络爬虫相结合的方法获取微博数据。由此可知,国内在应用微博数据分析问题方面开始得到重视,大量相关研究正在兴起,但在微博热门话题的情感分析方面还需要深入的研究。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/261.html