影评情感分析的研究与应用(附件)
摘 要随着互联网的蓬勃发展,人们越来越喜欢通过因特网对电影进行评论,因而网络上堆积了大量的影评数据。这些数据有非常重要的应用价值,其中隐含着观影者的感受和情感特征。本设计对电影评论进行情感分析,以挖掘出评论者对某部电影的态度。基于影评情感分析的研究与应用主要功能是可以对电影的评论进行情感分析,得到总体用户的情感倾向后绘图表示,并利用词云可视化帮助潜在观影者生成印象,辅助潜在观影者做出观影决策。本设计是在windows10的系统环境下,在弄得开发工具为Pycharm,采用的编程语言为Python。基本过程为通过网络爬虫技术对豆瓣电影网上的影评数据进行数据爬取,并对数据进行预处理,分词等。对处理过后的用户评论数据进行情感分析,分析出每一句的情感得分。最后将数据可视化以词云的形式展示电影的评论词库,并以直方图形式向潜在观影者展示评论数据的词频分析。本设计可以实现影评情感分析的基本要求,基本实现对影评数据的可视化展示。通过观影者的影评情感分析,使潜在观影者能够更直观的了解一部电影,从而做出观影决策,而利用互联网中存在的大数据,为互联网用户提供更加人性化的服务是未来互联网发展的趋势。
目 录
第一章前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 2
1.3文章整体组织结构 3
第二章Python数据挖掘概述 4
2.1Python数据挖掘简介 4
2.2数据挖掘的基本过程 5
第三章网络爬虫概述 8
3.1网络爬虫概述 8
3.2Scrapy框架介绍 9
第四章情感分析及其常用算法介绍 12
4.1情感分析概述 12
4.2基于词典的情感分析 12
4.3基于机器学习的情感分析 12
第五章数据的可视化 13
5.1数据可视化概述 13
5.2数据可视化的基本手段 13
5.2.1将指标值图形化 13
5.2.2将指标图像化 13 *好棒文|www.hbsrm.com +Q: @351916072@
5.2.3将指标关系图形化 14
5.2.4将时间和空间可视化 15
5.2.5让图标“动起来” 15
5.3数据可视化工具 15
5.3.1可视化工具之一——Echars 15
5.3.2可视化工具之二——国云大数据魔镜 16
第六章影评情感分析的实现 17
6.1影评源数据采集 17
6.2影评数据的预处理 19
6.3影评数据的建模与分析 19
6.4数据可视化的实现 20
6.4.1词云展示 20
6.4.2归一化词频直方图展示 21
6.4.3整体用户情感倾向展示 24
第七章总结与展望 25
7.1总结 25
7.2展望 25
参考文献 26
致 谢 27
第一章前言
1.1研究背景
当今全球互联网技术急速发展,许许多多的人们喜欢把对电影的评论通过因特网分享给同样爱好看电影的人,因而网络上积累了大量的影评数据。与此同时,互联网也出现了越来越多的网站,提供给电影爱好者们,电影爱好者们可以通过这些网站与其他人分享自己对某部电影的评论,例如豆瓣电影等。以豆瓣电影网为例,收录了百万条影片和影人的资料,极大地方便了人们的生活。而且目前网络上积累的这些数据有非常重要的应用价值,其中隐含着观影者的感受和情感特征。对此,本文以豆瓣电影网为例,对豆瓣电影网站上的评论进行情感分析,挖掘出评论者对某部电影的态度,是积极向上的,还是消极悲观的。使潜在的观影者对电影有一个直观的印象,从而做出观影决策。
1.2国内外研究现状
情感分析又称倾向性分分析,是一个分析处理归纳推理的流程。主要针对的是对带有感情色彩的主观性评论。目前公认的颇为系统的情感分析的研究工作开始于基于监督学习方法对电影评论文本进行情感倾向性分类和基于无监督学习对文本情感倾向性分析的研究。自从2002年Bo Pang提出之后,特别是在线评论的情感倾向性分析取得了很大的发展。而对于深层次的情感分析一定会涉及分析语义以及文本中经常出现的情感转移现象,所以尽管基于在线评论的情感倾向性分析的准确率能达到90%,但在基于深层次语义的情感分析以及篇章级别的情感分析一直没有取得很大的进展。另外情感分析尚未存在一个标准的情感测试语料库。当前情感分析只要集中于对情感词的正负面分类,标注语料,情感词的提取等进行研究。
目前的情感分析主要有两种思路:第一种是基于词典的情感分析[1],第二种是基于机器学习的情感分析。前者要求有非常丰富完善的情感词库、包含词语情感倾向性的情感词典和相关领域专有的领域词典,来与词典中的文本进行匹配。但是由于我们无论如何也不能总结出所有的语法规则和情感词汇,这样无疑加大了构造分类规则的难度。后者目前主流的方法就是基于监督的分类方法,采用机器学习的方式,训练集中是已经把情感类别分好的语料,通过计算有意义的特征参数,生成分类器。再对测试集中的数据进行分类。目前应用最广泛的几种分类模型就有朴素贝叶斯、最大熵、等方法[2]。
1.2.1国外研究现状
国外比较早就开始了对文本情感分类的研究。二十世纪末就有人开展对词语和短语级别的情感分析研究。1997年,Hatzivassiloglou等人考虑到英语中连词对形容词的倾向性是有一定的影响的,例如“simple and wellreceived”具有相同的倾向,而“simplistic but wellreceived”的情感倾向是相反的。基于这种联系,Hatzivassiloglou等人在其他人的基础上提出了相似度分布的词聚类方法。2000年之后,文本中情感研究领域中首次使用无监督的学习方法,是由Littman和Turney建议通过AltaVista搜索引擎中的NEAR操作符计算点互信息PMI,通过计算待测词语褒义词的PMI和与贬义词的PMI和的差值,把二者的差值作为待测词的语义倾向值。所有短语的语义倾向值之和就是文档的情感倾向值[3]。目前国外出现了许多基于情感分析的商用系统与应用:
与产品评论分析相关的商用系统服务。例如Google Shopping能够在在线购物平台为用户提供检测商品以及对比价格的服务;
与社交网络中信息分析相关的商品系统服务。例如Global Pulse可以利用Twitter等社交媒体中的大量情感数据去分析群众的情感变化;
目 录
第一章前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 2
1.3文章整体组织结构 3
第二章Python数据挖掘概述 4
2.1Python数据挖掘简介 4
2.2数据挖掘的基本过程 5
第三章网络爬虫概述 8
3.1网络爬虫概述 8
3.2Scrapy框架介绍 9
第四章情感分析及其常用算法介绍 12
4.1情感分析概述 12
4.2基于词典的情感分析 12
4.3基于机器学习的情感分析 12
第五章数据的可视化 13
5.1数据可视化概述 13
5.2数据可视化的基本手段 13
5.2.1将指标值图形化 13
5.2.2将指标图像化 13 *好棒文|www.hbsrm.com +Q: @351916072@
5.2.3将指标关系图形化 14
5.2.4将时间和空间可视化 15
5.2.5让图标“动起来” 15
5.3数据可视化工具 15
5.3.1可视化工具之一——Echars 15
5.3.2可视化工具之二——国云大数据魔镜 16
第六章影评情感分析的实现 17
6.1影评源数据采集 17
6.2影评数据的预处理 19
6.3影评数据的建模与分析 19
6.4数据可视化的实现 20
6.4.1词云展示 20
6.4.2归一化词频直方图展示 21
6.4.3整体用户情感倾向展示 24
第七章总结与展望 25
7.1总结 25
7.2展望 25
参考文献 26
致 谢 27
第一章前言
1.1研究背景
当今全球互联网技术急速发展,许许多多的人们喜欢把对电影的评论通过因特网分享给同样爱好看电影的人,因而网络上积累了大量的影评数据。与此同时,互联网也出现了越来越多的网站,提供给电影爱好者们,电影爱好者们可以通过这些网站与其他人分享自己对某部电影的评论,例如豆瓣电影等。以豆瓣电影网为例,收录了百万条影片和影人的资料,极大地方便了人们的生活。而且目前网络上积累的这些数据有非常重要的应用价值,其中隐含着观影者的感受和情感特征。对此,本文以豆瓣电影网为例,对豆瓣电影网站上的评论进行情感分析,挖掘出评论者对某部电影的态度,是积极向上的,还是消极悲观的。使潜在的观影者对电影有一个直观的印象,从而做出观影决策。
1.2国内外研究现状
情感分析又称倾向性分分析,是一个分析处理归纳推理的流程。主要针对的是对带有感情色彩的主观性评论。目前公认的颇为系统的情感分析的研究工作开始于基于监督学习方法对电影评论文本进行情感倾向性分类和基于无监督学习对文本情感倾向性分析的研究。自从2002年Bo Pang提出之后,特别是在线评论的情感倾向性分析取得了很大的发展。而对于深层次的情感分析一定会涉及分析语义以及文本中经常出现的情感转移现象,所以尽管基于在线评论的情感倾向性分析的准确率能达到90%,但在基于深层次语义的情感分析以及篇章级别的情感分析一直没有取得很大的进展。另外情感分析尚未存在一个标准的情感测试语料库。当前情感分析只要集中于对情感词的正负面分类,标注语料,情感词的提取等进行研究。
目前的情感分析主要有两种思路:第一种是基于词典的情感分析[1],第二种是基于机器学习的情感分析。前者要求有非常丰富完善的情感词库、包含词语情感倾向性的情感词典和相关领域专有的领域词典,来与词典中的文本进行匹配。但是由于我们无论如何也不能总结出所有的语法规则和情感词汇,这样无疑加大了构造分类规则的难度。后者目前主流的方法就是基于监督的分类方法,采用机器学习的方式,训练集中是已经把情感类别分好的语料,通过计算有意义的特征参数,生成分类器。再对测试集中的数据进行分类。目前应用最广泛的几种分类模型就有朴素贝叶斯、最大熵、等方法[2]。
1.2.1国外研究现状
国外比较早就开始了对文本情感分类的研究。二十世纪末就有人开展对词语和短语级别的情感分析研究。1997年,Hatzivassiloglou等人考虑到英语中连词对形容词的倾向性是有一定的影响的,例如“simple and wellreceived”具有相同的倾向,而“simplistic but wellreceived”的情感倾向是相反的。基于这种联系,Hatzivassiloglou等人在其他人的基础上提出了相似度分布的词聚类方法。2000年之后,文本中情感研究领域中首次使用无监督的学习方法,是由Littman和Turney建议通过AltaVista搜索引擎中的NEAR操作符计算点互信息PMI,通过计算待测词语褒义词的PMI和与贬义词的PMI和的差值,把二者的差值作为待测词的语义倾向值。所有短语的语义倾向值之和就是文档的情感倾向值[3]。目前国外出现了许多基于情感分析的商用系统与应用:
与产品评论分析相关的商用系统服务。例如Google Shopping能够在在线购物平台为用户提供检测商品以及对比价格的服务;
与社交网络中信息分析相关的商品系统服务。例如Global Pulse可以利用Twitter等社交媒体中的大量情感数据去分析群众的情感变化;
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/263.html