豆瓣影视的数据获取及可视化研究和实现(附件)

随着互联网与通信技术的飞速发展以及网络的普及,越来越多的人活跃在各类社交媒体中,豆瓣网站是其中的一个典型代表。人们在豆瓣网站中能够获取各种所需要的信息,并分享自己的观点,由此产生的海量数据中具有巨大的价值。本文主要利用网络爬虫对豆瓣电影网站的电影信息及影评数据进行获取,并通过构建情感词典与朴素贝叶斯的方法实现对影评内容的情感分析,最后利用Python中的可视化库实现各类数据的可视化。基于情感词典与基于朴素贝叶斯的情感分析的正确率分别为84.88%和64.50%,由此可见,由于影评的内容与用户的主观意志有较大关系,因此,基于情感词典的情感分析效果较优。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1.选题背景 2
1.1 问题的提出 2
1.2 国内外研究状况 2
1.2.1 数据采集研究状况 2
1.2.2 情感分析研究状况 2
1.2.3 数据可视化研究状况 3
1.3 研究的目的和内容 3
2 相关理论及关键技术 3
2.1 数据采集技术 3
2.1.1 基于API的数据采集 3
2.1.2 基于网络爬虫的数据采集 4
2.1.3 开源爬虫工具 4
2.2 数据预处理 4
2.2.1 数据清洗 5
2.2.2 中文分词和停用词处理 5
2.3 文本情感分析主要方法 6
2.3.1 基于情感词典的方法 6
2.3.2 基于机器学习的方法 6
2.4 数据可视化 6
2.4.1 数据可视化的方式 6
2.4.2 数据可视化的工具 6
3 数据的采集与存储 6
3.1 网络爬虫整体设计 6
3.2 爬虫系统数据库设计 8
4 中文文本情感分析具体设计 9
4.1 情感词典 10
4.2 朴素贝叶斯 12
5 数据可视化模块的设计与实现 14
5. *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
1 可视化模块需求 14
5.2 电影影评情感分析可视化 15
5.2.1 基于情感词典情感分析可视化 15
5.2.2 基于机器学习的情感分析可视化 15
5.2.3 影评文本内容关键词可视化 16
5.3 电影基本信息可视化 16
5.3.1 豆瓣热门电影评分top10电影 16
5.3.2 制片地区热门电影数量排名 17
5.3.3 电影制片地区及平均评分关系 17
5.3.4 热门电影中不同类型电影占比关系 18
5.3.5 各制片地区制片偏好 18
5.3.6 各类型电影评分关系 20
5.3.7 各类型电影平均时长与电影类型的关系 20
5.3.8 各制片地区电影评分箱线图关系 21
6 总结与展望 21
6.1 总结 21
6.2 展望 21
致谢 22
参考文献 23
基于豆瓣影视的数据获取及可视化研究和实现
引言
如今,随着互联网技术的发展,社会中产生的各类信息与数据不断增加,因此,从庞大的数据中获取所需要的数据这个问题变得越来越重要。在今天的信息社会,信息也是一种十分重要的资源之一,同时,在web2.0时代,各类社交网站蓬勃发展,用户在各类网站中不仅浏览网站内容,也会在网站中发布个人观点等,这在另一方面也反映出如今用户参与网站的机会相比于从前增加了许多。其中,豆瓣网站就是我国比较典型的社交网站之一。
通过对豆瓣电影网站中的各类电影信息的数据分析,可以帮助用户了解电影信息及电影行业的基本情况,此外,各类网站中的评价与评论不论是对用户、平台所有者还是对广告主、政府等都具有十分重要的意义,主要包括:①为电影商家提供反馈,即商家可以通过用户的评论细节和认同度来了解自身还存在的优缺点,从而扬长去短;②辅助用户决策,即用户可以通过查看他人的情感观点来判断电影质量,从而为用户省时省钱;③经济价值,即广告主能够通过评价信息来确定营销计划,有助于广告主的精准营销;④舆情监控,即通过用户对某件事或某一话题的评论来判断人们对待该问题的态度,从而有利于促进社会和谐。因此,对豆瓣电影网站的数据挖掘及可视化十分有意义。
1.选题背景
1.1 问题的提出
作为我国比较典型的社交平台之一,豆瓣网站正凭借其独特的特点吸引着越来越多的人参与其中,人们能够自由地浏览他们感兴趣的内容,比如浏览他们感兴趣的话题的电影、图书等,从中可以找到与自身有共同兴趣的群体,也可以在平台上畅所欲言,发表自己的观点和看法,比如对某一电影或图书的喜欢或厌恶、建议或评价等。在这些数量众多的极具个人情感色彩和主观立场的评论中,存在着由于各种因素而出现的很多评论内容与评分并不相符的情况,对影评文本的情感分析能够反映用户的真实态度,同时,由于短评发布与阅读速度快,使得影评信息有一定的影响力,因此其中隐藏的信息十分有价值[1]。
对于中文文本数据挖掘在原理上属于信息检索的一类,其一般过程主要包括数据预处理、特征提取、文本分类、文本聚类、关联分析[2]等,其中对中文文本的情感分析就属于文本分类的一部分。通过对电影影评所包含的情感进行提取与分析,被舆论被动引导的概率就会随之降低,对于广告主而言,能够通过这一途径获得用户对于某一事物的态度和情感,从而有助于完善自身的产品,以及之后的精准营销,促进企业的发展,这在一定程度上也有助于用户做出更好的选择。另外,对中文文本的情感分析也可广泛用于社会学、心理学、金融学等方面的研究。总之,对豆瓣电影网站中的电影影评的情感分析,以及对豆瓣网站中各种数据进行数据可视化有着十分重要的意义。
国内外研究状况
1.2.1 数据采集研究状况
目前,国内外各种著名的社交平台的数据采集都主要有两种方法,一是基于公开应用程序接口数据获取方法,二是利用网络爬虫[3]获得数据。其中,基于公开API的方法一般具有较多的限制,比如爬取的数据量、爬取的频率等,都具有比较大的限制,从而很难得到比较全面的数据;而利用网络爬虫技术的数据获取方法具有较高的灵活性,通过对网页的解析来获取网页数据。要获得海量的数据,一般要先解决登录的问题,这里分为手动登录与模拟登陆两种方法,一般来说,采用模拟登陆的方法效率会高很多。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/398.html

好棒文