word2vec的高校大微博情感词典的构建研究(附件)
在信息技术高速发展的时代,微博作为极具代表性的互联网社交平台,在吸引了大量用户的同时产生了海量的微博数据,因此从中筛选出有效信息并分析用户情感倾向成为了多个研究领域新兴的热点课题。本文总结了国内外研究者在文本情感分析方面的研究现状,列举了国内外情感分析研究的最新成果,并阐述了中文微博情感分析的理论知识和关键技术。本研究借助现有的三部权威的情感词典,结合TF*IDF算法和Word2Vec工具构建了高校微博情感词典,并设计了对比实验对情感词典的性能进行评测和分析,最后对研究的不足之处进行了讨论和研究展望。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
一、相关研究综述 2
二、高校微博情感词典的构建研究 4
(一)总体构建方案 4
(二)基础词典的构建 5
(三)扩展词典的构建 5
1.构建微博语料候选词集 5
2.获取种子词集 5
3.构建扩展情感词典 6
(四)情感倾向强度的判断 6
三、高校微博扩展词典构建的实现 8
(一)数据的采集及预处理 8
1.数据采集 8
2.数据预处理 8
(二)种子词集的获取 9
1.获取微博语料词集 9
2.构建种子情感词典 9
(三)扩展词的识别与发现 10
四、情感词典的性能测试 10
(一)实验方法及数据来源 10
1.测评方法 10
2.测评数据 11
(二)实验结果与分析 11
五、结语 12
致谢 13
参考文献 13
图1构建方案的整体流程图 4
图2 种子情感词典构建过程 5
图3 高校微博情感词典构建过程 6
图4 数据获取及预处理过程 9
表1 情感极性词典 5
表2 表情词典示例表 7
表3 部分微博语料词集示例 9
表4 部分种子情感词集示 *好棒文|www.hbsrm.com +Q: @351916072@
例 10
表5 部分扩展情感词集示例 10
表6 人工标注的微博情感极性分布 11
表7 对比实验结果数据 11
表8 对比实验评测结果 11
基于Word2Vec的高校大学生微博情感词典的构建研究
引言
目前大多数的情感词典是人工构建的。人工构建词典的方法是在凭借现有词典和的基础上,并在阅读大量的相关领域语料后,人工挑选出具有不同情感倾向性的词汇,并赋予每个词汇各自的极性和情感强度,汇总整合后构成一部情感词典。国外对于情感词典构建的研究起步较早,目前较为常见的通用英文情感词典有:Senti Word Net、General Inquirer、Opinion Lexicon。其中Senti Word Net是最著名的英文情感词典,这部词典基于Word Net构建,并给出了包含在Word Net中每个同义词的正面、负面及客观情感得分。General Inquirer是建立最早的情感词库,作者将两部英文词典(《哈佛词典 (第4版)》和《拉斯韦尔词典》)中的情感词按照情感极性分类汇总,这部词典也是一个情感分析的计算机程序。Opinion Lexicon词典的[1]发布者是Bing Liu,区别于其他情感词典的是,它除了涵盖情感词之外,还增加了许多俚语、语法形式以及常见的单词拼写错误等。
在中文情感词典构建方面,相对于国外来说起步较晚,因此较为规范的中文情感词典不太多,使用范围最广也最为权威的主要有三部分别是:How Net、DUTIR、NTUSD。How Net情感词典是由董振东和董强合作建立的,是最早建立的中文情感词典,传播范围也最为普遍;它构建了一个词汇之间的关系网络,具有WordNet的一些特点,揭示了不同概念的属性和他们相互之间的关系,在中文的基础上还加入了英文情感词汇。DUTIR中文情感词汇本体库从词汇词性、情感类别、极性和强度等多个方面描述了本体库中的每一个中文词汇和短语,最终把情感强度分为五个档,情感类别包括7个大类21个小类,由大连理工大学研究室组织构建。NTUSD中文情感极性词典由台湾大学自然语言处理实验室构建,同上述两部词典共同构成了当前中文领域最为常用的情感词典。
现在许多研究者提出了多种情感词典的自动构建方法,这些方法主要分为三类:基于知识库、基于语料库以及知识库和语料库相结合的方式[2]。其中,基于知识库的方法是在结合部分较为完善且开放的语义知识库的基础之上,挖掘词汇之间同义词关系、反义词关系及上下位类关系之后构建情感词典。这一方法细分之后又可以分为三类:词关系扩展法、迭代路径法和释义扩展法。词关系扩展法就是首先获得一个情感极性已知的词集,在语义知识库中寻找词集中词汇的同义和反义关系等对词集扩展。迭代路径法[3]是计算知识库中的某个词通过词间关系迭代到另一个词所需的次数,以此来得到两个词的相似性,通过已知词的极性得到未知词的极性。释义扩展法[3]是利用词的释义来寻找某一词汇和释义中词汇的语义关系,有的研究还将词的释义作为训练语料。但目前较为全面的汉语语义知识库较少,因此在中文情感词典构建领域,完全基于知识库方法的研究不多。柳位平等[4]对How Net词典做了扩展,筛选出一些较常用的情感词构成词集,通过词语义元距离计算词间相似度得到词语的情感值构成基础情感词典。杨超等[5]利用How Net和NTUSD并通过词间计算相似度和词频统计判定词语的情感倾向。周咏梅等[6]将How Net的英文情感词与 Senti Word Net进行对应,并计算这些英文词汇的平均情感强度,得到了所对应的中文词汇的情感强度。
基于语料库的方法包括连词关系法和词语共现法[7]。通常情况下,转折词会使得句子的情感极性发生改变,但其他的连词比如并列连词等不会改变情感词的极性,连词关系法利用连词的文本信息作为辅助判别句子情感极性。而词语共现法主要是通过词和词之间的共现情况来判断他们之间的相关性,并进一步判定词语之间情感极性的相似度[8]。李勇敢等[9]基于中文依存句法的分析,并对依存分析的结果做了删减和归并处理,去除了冗余信息并将语义重复的词合并,后根据依存规则抽取情感词并判断极性。阳爱民等[7]通过百度搜索的结果,计算种子词与其他词的SOPMI判定情感极性。魏志生等[8] 计算形容词、副词和类别的MI值降序排列,取前10%作为种子词;通过计算种子词和其他类别的PMI 值判定种子词的情感极性,再计算候选词和种子词的SOPMI确定候选情感词的极性。殷春霞等[10]对两个情感词在语料中的转折、非转折、不存在关系等做统计分析,根据复杂网络确定词间关系,作者认为语料中使用的同一个情感词评论的相同对象在所有上下文中情感倾向都是一样的。因此语料充分的情况下,词间上下文关系可以用于判断任意两个情感词的情感倾向关系。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
一、相关研究综述 2
二、高校微博情感词典的构建研究 4
(一)总体构建方案 4
(二)基础词典的构建 5
(三)扩展词典的构建 5
1.构建微博语料候选词集 5
2.获取种子词集 5
3.构建扩展情感词典 6
(四)情感倾向强度的判断 6
三、高校微博扩展词典构建的实现 8
(一)数据的采集及预处理 8
1.数据采集 8
2.数据预处理 8
(二)种子词集的获取 9
1.获取微博语料词集 9
2.构建种子情感词典 9
(三)扩展词的识别与发现 10
四、情感词典的性能测试 10
(一)实验方法及数据来源 10
1.测评方法 10
2.测评数据 11
(二)实验结果与分析 11
五、结语 12
致谢 13
参考文献 13
图1构建方案的整体流程图 4
图2 种子情感词典构建过程 5
图3 高校微博情感词典构建过程 6
图4 数据获取及预处理过程 9
表1 情感极性词典 5
表2 表情词典示例表 7
表3 部分微博语料词集示例 9
表4 部分种子情感词集示 *好棒文|www.hbsrm.com +Q: @351916072@
例 10
表5 部分扩展情感词集示例 10
表6 人工标注的微博情感极性分布 11
表7 对比实验结果数据 11
表8 对比实验评测结果 11
基于Word2Vec的高校大学生微博情感词典的构建研究
引言
目前大多数的情感词典是人工构建的。人工构建词典的方法是在凭借现有词典和的基础上,并在阅读大量的相关领域语料后,人工挑选出具有不同情感倾向性的词汇,并赋予每个词汇各自的极性和情感强度,汇总整合后构成一部情感词典。国外对于情感词典构建的研究起步较早,目前较为常见的通用英文情感词典有:Senti Word Net、General Inquirer、Opinion Lexicon。其中Senti Word Net是最著名的英文情感词典,这部词典基于Word Net构建,并给出了包含在Word Net中每个同义词的正面、负面及客观情感得分。General Inquirer是建立最早的情感词库,作者将两部英文词典(《哈佛词典 (第4版)》和《拉斯韦尔词典》)中的情感词按照情感极性分类汇总,这部词典也是一个情感分析的计算机程序。Opinion Lexicon词典的[1]发布者是Bing Liu,区别于其他情感词典的是,它除了涵盖情感词之外,还增加了许多俚语、语法形式以及常见的单词拼写错误等。
在中文情感词典构建方面,相对于国外来说起步较晚,因此较为规范的中文情感词典不太多,使用范围最广也最为权威的主要有三部分别是:How Net、DUTIR、NTUSD。How Net情感词典是由董振东和董强合作建立的,是最早建立的中文情感词典,传播范围也最为普遍;它构建了一个词汇之间的关系网络,具有WordNet的一些特点,揭示了不同概念的属性和他们相互之间的关系,在中文的基础上还加入了英文情感词汇。DUTIR中文情感词汇本体库从词汇词性、情感类别、极性和强度等多个方面描述了本体库中的每一个中文词汇和短语,最终把情感强度分为五个档,情感类别包括7个大类21个小类,由大连理工大学研究室组织构建。NTUSD中文情感极性词典由台湾大学自然语言处理实验室构建,同上述两部词典共同构成了当前中文领域最为常用的情感词典。
现在许多研究者提出了多种情感词典的自动构建方法,这些方法主要分为三类:基于知识库、基于语料库以及知识库和语料库相结合的方式[2]。其中,基于知识库的方法是在结合部分较为完善且开放的语义知识库的基础之上,挖掘词汇之间同义词关系、反义词关系及上下位类关系之后构建情感词典。这一方法细分之后又可以分为三类:词关系扩展法、迭代路径法和释义扩展法。词关系扩展法就是首先获得一个情感极性已知的词集,在语义知识库中寻找词集中词汇的同义和反义关系等对词集扩展。迭代路径法[3]是计算知识库中的某个词通过词间关系迭代到另一个词所需的次数,以此来得到两个词的相似性,通过已知词的极性得到未知词的极性。释义扩展法[3]是利用词的释义来寻找某一词汇和释义中词汇的语义关系,有的研究还将词的释义作为训练语料。但目前较为全面的汉语语义知识库较少,因此在中文情感词典构建领域,完全基于知识库方法的研究不多。柳位平等[4]对How Net词典做了扩展,筛选出一些较常用的情感词构成词集,通过词语义元距离计算词间相似度得到词语的情感值构成基础情感词典。杨超等[5]利用How Net和NTUSD并通过词间计算相似度和词频统计判定词语的情感倾向。周咏梅等[6]将How Net的英文情感词与 Senti Word Net进行对应,并计算这些英文词汇的平均情感强度,得到了所对应的中文词汇的情感强度。
基于语料库的方法包括连词关系法和词语共现法[7]。通常情况下,转折词会使得句子的情感极性发生改变,但其他的连词比如并列连词等不会改变情感词的极性,连词关系法利用连词的文本信息作为辅助判别句子情感极性。而词语共现法主要是通过词和词之间的共现情况来判断他们之间的相关性,并进一步判定词语之间情感极性的相似度[8]。李勇敢等[9]基于中文依存句法的分析,并对依存分析的结果做了删减和归并处理,去除了冗余信息并将语义重复的词合并,后根据依存规则抽取情感词并判断极性。阳爱民等[7]通过百度搜索的结果,计算种子词与其他词的SOPMI判定情感极性。魏志生等[8] 计算形容词、副词和类别的MI值降序排列,取前10%作为种子词;通过计算种子词和其他类别的PMI 值判定种子词的情感极性,再计算候选词和种子词的SOPMI确定候选情感词的极性。殷春霞等[10]对两个情感词在语料中的转折、非转折、不存在关系等做统计分析,根据复杂网络确定词间关系,作者认为语料中使用的同一个情感词评论的相同对象在所有上下文中情感倾向都是一样的。因此语料充分的情况下,词间上下文关系可以用于判断任意两个情感词的情感倾向关系。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/535.html