最大熵模型在评论情感分析中的应用研究

摘 要 现如今,互联网已经成为人们生活中不可或缺的一部分,人们不仅可以从互联网上接收信息,还可以将自己对于某一事件、人物或者产品的看法、观点发布到网络上。这些网络信息反映了大众的情感倾向,如果能够在繁杂众多的评论中挖掘出其中包含的情感色彩,将大有裨益。然而,正是由于互联网的普及网络上出现了海量的评论,它们中大多杂乱无章、无结构化可言,仅仅利用人工的方法进行情感倾向的判断几乎是不可行的。因此,情感分析技术有着重要的研究价值。 目前,多种方法在文本情感分析领域得到了十分广泛的应用,但由于最大熵模型具有特征选择灵活,不需要额外的独立假设或内在约束、可移植性强,可以结合丰富的信息应用到各个领域的特点,因此本文在此基础上提出了最大熵模型在评论情感分析中的应用。本文以最大熵原理为基础对评论情感分析做了如下研究:1.介绍了文本情感分析的课题研究背景及意义和国内外研究现状,将本课题的研究意义以及国内外情感分析技术的进展作了详细介绍。2. 介绍了情感分析的相关技术,对情感分析时用到的各种技术的原理及其优缺点进行了简明扼要的分析,其中对多种文本分类算法的分类原理和性能作了分析比较。3.对原始数据集中的评论做了预处理,其中包括分词、词性标注、构建情感词典以及特征选择等步骤。使用信息增益(IG)算法选择出具有较强情感色彩的词对分类器进行训练。4.基于最大熵原理,构建了用于评论情感倾向性分析的分类器,使用训练集来训练分类器,使用通用迭代缩放算法(GIS)来进行参数估计,最终使用测试集对分类器性能进行评估。5.实验结果与分析。使用精确度、召回率、flscore、准确率及specificity五种指标评估不同的情感词归类方法对于分类结果的影响。实验结果表明基于最大熵构建的分类对评论情感分类结果较为理想,保证了较高的准确率与召回率,最重要的一点,最大熵模型与预处理过程以及语义数据库相互独立,是一种行之有效的评论情感分类方法。
目录
摘 要 I
ABSTRACT II
第一章 绪论 1
1.1 课题背景及研究意义 1
1.2 国内外情感分析领域的研究现状 2
1.3情感分析的应用领域 4
1.3.1 事件分析 4
1.3.2 网络舆情分析 4
1.3.3垃圾邮件
 *好棒文|www.hbsrm.com +Q: %3^5`1^9`1^6^0`7^2# 
过滤 4
1.3.4产品评论分析 5
1.4 课题主要研究内容 5
1.5论文组织结构 6
第二章 情感分析的相关技术综述 7
2.1 情感信息的分类 7
2.1.1 主客观信息分类 7
2.1.2 主观信息的情感分类 7
2.2 自动分词技术 8
2.2.1基于统计的分词技术 8
2.2.2基于字符串匹配的分词方法 9
2.2.3基于理解的分词方法 9
2.3 词性标注技术 9
2.3.1基于规则的方法 10
2.3.2基于统计的方法 10
2.4 情感信息的抽取 10
2.5 常用的特征选择算法 11
2.5.1文档频率 11
2.5.2 信息增益 12
2.6 文本的分类算法 12
2.6.1 k近邻算法 12
2.6.2 Na?ve Bayes分类算法 12
2.6.3支持向量机 13
2.6.4最大熵算法 13
2.7本章小结 14
第三章 评论语料预处理 15
3.1数据集的特性 15
3.2转折词的处理 16
3.3评论语料的分词及词性标注 18
3.4评论语料集正负评论标注 20
3.5评论语料训练集和测试集的划分 21
3.6构建情感词典 22
3.7预处理后的训练集和测试集格式 23
3.8 构建用于特征选择的FeatureWordHash文件 24
3.9本章小结 25
第四章 分类器的设计与实现 26
4.1开发环境 26
4.1.1 开发平台简介 26
4.1.2 开发语言简介 26
4.2系统框架 26
4.3 最大熵 27
4.3.1最大熵理论 27
4.3.2最大熵模型原理推导 27
4.3.3最大熵模型的参数估计 30
4.4 分类器设计 30
4.4.1特征提取模块的设计 31
4.4.2分类器模块的设计 31
4.5分类器实现 32
4.5.1特征提取模块的实现 32
4.5.2分类器模块的实现 34
4.6实验结果与分析 37
4.6.1评论数据集选择 37
4.6.2正负向评论在数据集中的分布 37
4.6.3实验结果分析 37
4.7本章小结 39
第五章 总结与展望 40
致谢 42
参考文献 43
附录:英文文献翻译 46
第一章 绪论
1.1 课题背景及研究意义
随着互联网的普及,让越来越多的用户能够参与到互联网的建设中去,传统依赖于纸质的信息传递方式逐渐被互联网的信息共享方式所取代。《第33次中国互联网络发展状况统计报告》是中国互联网络信息中心(CNNIC)在2014年1月发布的一项统计报告,其中数据显示:截至2013年12月底,中国网民规模达到6.18亿,互联网普及率较上年底提升3.7个百分点,达到45.8%。
由于互联网的普及,人们的生活也随之发生翻天覆地的变化,2009年至今,多种商务类应用百花齐放,引领网络应用的发展潮流。其中以旅行预订、网络购物、网上支付为典型代表。其中以网络购物发展最为迅速,越来越多的网民选择在网上购物,她们对于足不出户购买商品的方式很是享受。全球著名的市场调研公司尼尔森公司,通过对全球范围内的消费者信任的广告方式进行调研给出了一份名为《Global Trust in Advertising and Brand Messages》的报告[1],该报告指出:朋友和家人对于产品的口头推荐,仍然是最具影响力的广告方式,也是消费者最信任的广告方式。其次则是网络上消费者对商品的主观评论,其中有70%的被调查的消费者表示在选择商品时会使用在线评论作为参考。媒体报道和品牌官方网站则分别排在第三和第四位。与排在首位的家人和朋友的推荐相比,由于在线评论具有评论文本数大、商品种类繁多的特点,因此有较强的适应性。然而,使用在线评论的弊端在于网络上的海量评论大多杂乱无章、无结构化可言,仅仅利用人工的方法进行情感倾向的判断几乎是不可行的。因此,对海量的评论进行情感信息的挖掘、分析以此来判断消费者的情感倾向已成为当今计算机领域研究的热点。
文本情感分析顾名思义是指对带有主观情感色彩的文本进行分析、处理和归纳,最终判断该文本的主观情感倾向是高兴还是悲伤,或者该文本对某一事件表达的反对还是赞同的观点等等。这一过程也可以称为意见挖掘,简单来说就是对说话人的情感、意见等进行挖掘、分析、推理的过程[2]。具有倾向性的主观评论称作情感信息,评论情感分析指的是对包含消费者情感、喜好、观点的主观性评论进行挖掘分析,从非结构化的评论文本中抽取、组织、整理出消费者以及商家感兴趣的内容转化成结构化的形式,将挖掘出的情感信息快速、全面的提供给消费者以及商家,他们可以从中得到两种信息:一是评论中消费者对于某种商品的整体倾向性,二是对于产品某一属性的评价信息。通过情感分析技术,可以帮助消费者更加快速、全面的了解商品的详细信息,提高商品购买的满意度。与此同时,商家也可以根据情感挖掘的结果了解消费者对于商品的满意程度以及同类产品的竞争性,从而进行相应的决策调整。因此,在当今电子商务迅猛发展的时代,充分挖掘网络上海量商品评论的情感信息,对消费者和商家有着相当重要的意义。
基于最大熵原理构建的分类器较传统的情感分析方法在特征选择方面有较强的独立性,即在特征选择阶段,开发者无需思考如何使用这些选择出来的特征;再者该分类器具有较强的灵活性,即可以不需要任何额外的独立假定或内在约束;其次该分类器可以结合丰富的信息应用于不同的领域。
基于以上背景,如何快速、高效地对互联网上海量的商品评论进行情感挖掘成为研究关注的重点。因此,本文以前人在评论情感分析方面的研究成果为基础,以中文在线评论为研究内容,重点研究了基于最大熵原理的有监督的机器学习方法在评论情感分析中的应用。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/1783.html

好棒文