python的影视评论分类筛选研究与实现【字数:8183】
为了给电影观众一个直观、清晰的展示观众对电影的喜爱程度以及他们的观影感受,给观众更加清楚、快速的了解到自己喜欢的电影的以及不太感兴趣的电影的类别。本文主要研究了影视评论数据的分类筛选的设计与实现,对影视评论进行网络爬虫与挖掘。本文主要运用了Python对影视评论文本进行数据爬取、存储、以及挖掘,对评论文本进行数据挖掘得到评分图以及观影分布图,即可得到该评论数据所评论电影的喜爱程度大体分布图以及观众喜欢的理由。
Key words:Analysis of data;Web Scraping ;data storage;Data visualization目录
1.绪论 5
1.1项目背景 5
1.2项目研究的目的和意义 5
1.3国内外研究现状 5
1.4主要研究内容 5
1.5设计目标与解决方案 6
2.可行性分析 7
2.1技术可行性(项目总体框架) 7
2.2关键技术介绍 8
2.2.1运行环境 8
2.2.2 网络爬虫 8
2.2.3数据储存与分析 11
2.2.4数据可视化 12
3. 研究分析 13
3.1 影视评论数据的处理 13
3.2 数据处理 13
3.3 数据可视化 14
4. 系统设计与实现 15
4.1 设计目标与原则 15
4.2 系统实现 16
4.2.1 用户交互页面 16
4.2.2 数据爬取 19
4.2.3 数据可视化 23
4.2.4 总结 30
5. 结语 31
参考文献 32
致谢 33
绪论
1.1项目背景
影视评论鉴赏的目的在于分析、鉴赏和评价蕴含在银幕中的审美价值、认识价值、社会意义、镜头语言等,达到拍摄影片易于观众选取自己喜爱的电影的目的,解释影片中所表达的主题[2],既能通过分析影片的所取得的成功的方面,帮助开阔视野,提高创作水平,促进电影艺术的繁荣和发展;同时能通过分析和评价,横向来看数据 *好棒文|www.hbsrm.com +Q: ^351916072^
分析的知识体系贯穿数据获取、数据存储、数据分析、数据可视化各大部分;按数据源分,也可以是自己收集的数据,也可以采购数据或者基于公开数据集[3]。影响观众对影片的理解和鉴赏,提高观众的欣赏水平,从而间接促进电影艺术的发展。
1.2项目研究的目的和意义
本课题数据爬取数据分析的研究,并应用数据处理对某影视的评论数据进行数据分析挖掘,获得该影视的特点以及评分词云图,使得将相关特点的影视作品的归纳与总结。伴随着社会经济的不断提高,我们国家的影视产量也得到了飞快的发展,同时影视创作也发生了很大的变化,影评在影视产业中起着非常重要的作用[4]。
1.3国内外研究现状
对数据进行分析与研究,必须提到的就是网络爬虫(web crawler),也被称作网络蜘蛛(spider),搜索引擎(Google,百度等)就是大众日常生活中接触到的最典例、最强大的爬虫。目前在我们国家的影评的发展还比较慢,如何让影评更加准确精准的为人们服务成为目前影视发展的主要问题。
1.4研究重点
在本文研究的重点主要是影视评论的爬取与分析研究,由于许多实际应用和具有挑战性的研究问题,在本文中,我们研究了两个重要的问题,数据处理分析和数据可视化研究。在本文中,主要涉及到对电影评论数据的爬取,然后对数据的储存以及研究,通过对影视评论的分析来得到观众对电影的评价以及观影的分布还有评分图,来得到观众对电影的评分分布图表。
1.5设计目标与解决方案
本文的主要目标是为观众分析与提取提交的影视评论数据提取出来从而得到观众的喜好特征并且对最终的数据进行评分处理更加直观的得到观众对某部电影的观影感受。主要思想就是对观众的在影片的哪些方面做出了评价,同时也要对评论进行挖掘,最终得到数据分析的结果从而知道观众对影片的喜好程度。
主要的难点在于数据分析方面,例如我们所运用的数据可视化处理中,有的地区可能显示无,我们需要自行把数据导入到数据接口中里去,以及在分词过程中,我们需要设置屏蔽词对关键的评论数据进行处理,有的评论词可能在以前的评论中并没出现过,是最近的才出现的热词,需要经过反复研究把这些词识别出来。对上述问题的解决方案我们在Python3.0的基础下对数据评论进行算法处理,对第三方库进行下载和运用,将目标文本分隔后,把文本分配到python进程并行分词,然后得到结果,从而获得分词速度的可观提升,?从而解决问题所在,也可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率。
2.可行性分析
2.1技术可行性(项目总体框架)
首先,收集数据,统计真实用户的在线评价数据,并组成初始数据集;其中数据主要包括评价用户的相关信息(时间、日期、观影时间和对电影的评分)、评价对象的相关信息和评价用户对评价对象的评价文本。
首先,在猫眼网站爬取影片的评论数据。
其次,对数据进行保存。
然后,提取数据中的评价信息。
接着,将数据进行可视化处理。
最后,得到观众分布图以及对电影分析基本的结果。功能模块图如图21所示。
图21 功能模块图
2.2关键技术介绍
2.2.1运行环境
1.数据爬取:JetBrains PyCharm 、火狐浏览器
Key words:Analysis of data;Web Scraping ;data storage;Data visualization目录
1.绪论 5
1.1项目背景 5
1.2项目研究的目的和意义 5
1.3国内外研究现状 5
1.4主要研究内容 5
1.5设计目标与解决方案 6
2.可行性分析 7
2.1技术可行性(项目总体框架) 7
2.2关键技术介绍 8
2.2.1运行环境 8
2.2.2 网络爬虫 8
2.2.3数据储存与分析 11
2.2.4数据可视化 12
3. 研究分析 13
3.1 影视评论数据的处理 13
3.2 数据处理 13
3.3 数据可视化 14
4. 系统设计与实现 15
4.1 设计目标与原则 15
4.2 系统实现 16
4.2.1 用户交互页面 16
4.2.2 数据爬取 19
4.2.3 数据可视化 23
4.2.4 总结 30
5. 结语 31
参考文献 32
致谢 33
绪论
1.1项目背景
影视评论鉴赏的目的在于分析、鉴赏和评价蕴含在银幕中的审美价值、认识价值、社会意义、镜头语言等,达到拍摄影片易于观众选取自己喜爱的电影的目的,解释影片中所表达的主题[2],既能通过分析影片的所取得的成功的方面,帮助开阔视野,提高创作水平,促进电影艺术的繁荣和发展;同时能通过分析和评价,横向来看数据 *好棒文|www.hbsrm.com +Q: ^351916072^
分析的知识体系贯穿数据获取、数据存储、数据分析、数据可视化各大部分;按数据源分,也可以是自己收集的数据,也可以采购数据或者基于公开数据集[3]。影响观众对影片的理解和鉴赏,提高观众的欣赏水平,从而间接促进电影艺术的发展。
1.2项目研究的目的和意义
本课题数据爬取数据分析的研究,并应用数据处理对某影视的评论数据进行数据分析挖掘,获得该影视的特点以及评分词云图,使得将相关特点的影视作品的归纳与总结。伴随着社会经济的不断提高,我们国家的影视产量也得到了飞快的发展,同时影视创作也发生了很大的变化,影评在影视产业中起着非常重要的作用[4]。
1.3国内外研究现状
对数据进行分析与研究,必须提到的就是网络爬虫(web crawler),也被称作网络蜘蛛(spider),搜索引擎(Google,百度等)就是大众日常生活中接触到的最典例、最强大的爬虫。目前在我们国家的影评的发展还比较慢,如何让影评更加准确精准的为人们服务成为目前影视发展的主要问题。
1.4研究重点
在本文研究的重点主要是影视评论的爬取与分析研究,由于许多实际应用和具有挑战性的研究问题,在本文中,我们研究了两个重要的问题,数据处理分析和数据可视化研究。在本文中,主要涉及到对电影评论数据的爬取,然后对数据的储存以及研究,通过对影视评论的分析来得到观众对电影的评价以及观影的分布还有评分图,来得到观众对电影的评分分布图表。
1.5设计目标与解决方案
本文的主要目标是为观众分析与提取提交的影视评论数据提取出来从而得到观众的喜好特征并且对最终的数据进行评分处理更加直观的得到观众对某部电影的观影感受。主要思想就是对观众的在影片的哪些方面做出了评价,同时也要对评论进行挖掘,最终得到数据分析的结果从而知道观众对影片的喜好程度。
主要的难点在于数据分析方面,例如我们所运用的数据可视化处理中,有的地区可能显示无,我们需要自行把数据导入到数据接口中里去,以及在分词过程中,我们需要设置屏蔽词对关键的评论数据进行处理,有的评论词可能在以前的评论中并没出现过,是最近的才出现的热词,需要经过反复研究把这些词识别出来。对上述问题的解决方案我们在Python3.0的基础下对数据评论进行算法处理,对第三方库进行下载和运用,将目标文本分隔后,把文本分配到python进程并行分词,然后得到结果,从而获得分词速度的可观提升,?从而解决问题所在,也可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率。
2.可行性分析
2.1技术可行性(项目总体框架)
首先,收集数据,统计真实用户的在线评价数据,并组成初始数据集;其中数据主要包括评价用户的相关信息(时间、日期、观影时间和对电影的评分)、评价对象的相关信息和评价用户对评价对象的评价文本。
首先,在猫眼网站爬取影片的评论数据。
其次,对数据进行保存。
然后,提取数据中的评价信息。
接着,将数据进行可视化处理。
最后,得到观众分布图以及对电影分析基本的结果。功能模块图如图21所示。
图21 功能模块图
2.2关键技术介绍
2.2.1运行环境
1.数据爬取:JetBrains PyCharm 、火狐浏览器
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/592.html