基于词典的短文本情感分析方法的研究与实现(附件)【字数:13322】

指导教师 卞璐 摘 要互联网的发展改变了人们的生活方式,为网民发表想法、建议等提供了途径。网民发表的评价、想法聚集在网上成为了带有主观色彩短文本,这些信息存在巨大的社会经济效益,同时存在网络舆情、信息泄露等问题。情感分析不仅能够快速的发现和挖掘出网民的态度,更能进一步对事件的发展做出可靠的预测。本毕业设计论文首先介绍情感分析需要用到的技术及理论基础,然后介绍了情感词典的构建方式,人工构建的情感词典包括情感词分类、情感词数量、情感词的权值标注等,之后利用短文本情感计算技术,判断文本是正面、负面还是中性,介绍情感判断的流程,最后根据短文本情感值计算的具体步骤,展示如何通过Python用代码实现对短文本的情感值计算,为网络舆情提供指导。
目 录
第一章 绪论 1
1.1课题研究的背景与意义 1
1.2研究的现状 1
1.3论文构架 2
第二章 相关技术概念及理论介绍 3
2.1情感倾向 3
2.2文本预处理技术 3
2.3中文分词技术 3
2.3.1中文分词算法 4
2.3.2常用的中文分词系统 4
2.4词性标注 4
2.5去除停用词 5
2.6本章小结 5
第三章 创立情感词典 6
3.1几种常见的情感词典介绍 6
3.2 情感词典的组成 6
3.2.1基础情感词典 7
3.2.2网络情感词典 8
3.2.3领域情感词典 9
3.3 本章小结 9
第四章 短文本情感计算核心技术 10
4.1常见短文本的特点和来源 10
4.2面向短文本的情感计算方法 10
4.3情感判断 13
4.4本章小结 14
第五章 基于Python的短文本情感分析的实现 14
5.1准备阶段 14
5.2数据预处理 16
5. 3构建模型 16
5.4实验结果验证 18 *好棒文|www.hbsrm.com +Q: ^351916072* 

5.4.1好评度的验证 18
5.4.2情感倾向程度的验证 20
5.5本章小结 21
结束语 23
致 谢 24
参考文献 25
附录 26
第一章 绪论
1.1课题研究的背景与意义
随着国际互联网技术的飞速发展,用户群众对各类事件的参与度大大提高,互联网承载了诸多带有个人情感倾向的分析。通过对这一系类的个人情感倾向信息进行分析,我们可以了解到社会对于某件事情的态度[1]。
该类信息在引发互联网舆论的同时也会带来巨大的经济效应,因此得以促使各类相关联产品的诞生。由于网络舆论受到了越来越多的关注,所以为了信息传递的健康性,监控与管理机制也变得尤其的重要,而其中关键便是对于社会情感导向的分析。当自媒体时代到来时,原本的社交平台纷纷搭建起适合自媒体发展的平台,越来越多的用户利用业余时间进行自媒体新闻的传播,甚至有更多的人进行全职投入。该类社交媒体全方面地渗透到了用户的日常生活当中,逐渐地改变了人们的日常生活方式[2]。
其中,大量的BBS论坛,微博、微信、贴吧、陌陌等及时通讯类APP等都在提升自身的功能以跟上时代发展的潮流。其中的各类不同服务都会主打一个卖点,例如:贴吧主打的是互动性,陌陌主打的是隐蔽性,微信、QQ主打的是及时性。选用不同的方式来分享生活、传达感情成为了用户利用互联网进行交流的重要生活方式,这边互联网上海量情感信息爆发的主要原因[3]。
本文将情感分析作为语言处理的重要基石,是对带有主观性质文本进行分析、处理、归纳和分析推理的一系类连续过程。其主要方式便是在传统文本情感计算的基础上增加了对情感分析的算法,能够更加精准定位网络用户对待某个事件的态度,能够进行更可靠的预测,还能进一步去除虚假信息的影响,如水军言论带来的舆情影响,这为舆情工作带来了科学的指导。
情感分析系统针对的主要是生活类网站的信息。通过网站请求后通过工具提取舆情文本,将文本通过软件进行分析,然后将结果进行初次输出。接着结合最新的情感词典,对输出结果进行二次分析。期间还需要考虑到中文的特殊性,结合特定情景对数据进行判断。
1.2研究的现状
短文本情感分析是文本情感分析的分支,不同形式的短文本,是情感分析所研究的对象。短文本的情感分析研究范围宽广,涵盖了多个学科,如机器学习学科、数据挖掘学科、计算语言学学科、信息检索学科等,并且与语言学、计算机学、统计学等等多个学科都有一定程度的联系。短文本的情感分析的发展迅猛,已经成为了一个重要的研究内容,现有很多国内外的研究人员和一些组织机构积极的参与短文本情感分析的研究。
现如今,国内外都已有了很多短文本情感分析这方面内容的相关评测和研究成果,这让短文本的情感分析技术取得了长足的发展。在2008年,第一次成功举办中文倾向性的分析与评测,并且后续一共成功的举办了六次,这使得中文情感知识库趋于完善,不仅让中文倾向性分析得到了巨大发展,还提升了情感的极性分析技术、中文的观点句识别技术与评价对象抽取技术等相关的各项技术综合水平。
目前,对短文本的情感分析研究主要有两种方法,分别是基于情感词典和基于机器学习这两种研究方法。
最早的基于情感词典的文本情感研究方法是Kennedy 等人提出来的,这种方法较为简易,基本的思路就是先对情感词进行标注(标注为正面、负面或好、坏两个方面),再者就是将组成句子的词语进行分类,主要是用统计技术对文本内容的情感进行评估[4]。
2. 最早的基于机器学习的文本情感分析方法是Lillian Lee等人提出的,这种方法的基本思路就是依靠机器的学习方法和对文本的分类经验来进行文本的情感分类,比较常用且成熟的分类方法主要有最大熵模型、朴素贝叶斯以及支持向量机等[5]。Haddi E探索了文本预处理在文本的情感分析中所起到的作用,他证明了选择合适特征和表征是能够提升支持向量机在文本情感分析中的性能的。
1.3论文构架
第一章绪论,着重对短文本情感分析的研究背景、研究意义以及研究现状进行介绍,在最后对论文构架进行了介绍。
第二章相关技术概念及理论介绍,情感倾向、中文分词等相关概念,简述了文本情感值计算流程中的文本预处理、中文分词以及词性标注技术,最后对去除停用词的停用词表进行了简单介绍。
第三章创建情感词典,先介绍目前常用的三种词典,然后说明论文使用构建词典的组成过程和具体内容。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/553.html

好棒文