条件随机场模型的食品安全语料命名实体识别探究(附件)

摘要:命名实体是语料的重要信息,通过对命名实体的识别可以快速掌握一篇语料的主要内容。本文基于食品安全的网络突发事件作为语料,通过条件随机场模型作为方法,对机构名和人名这两个命名实体进行识别。语料库来源为专门研究食品安全网络突发事件的“掷出窗外”网站,选取语料下载形成语料库。选取实体本身和内外部共十个特征进行分析,然后以条件随机场作为模型测试训练语料的特征,并与最大熵模型的测试结果进行比较。实验表明,条件随机场模型的整体性能比较突出,在以条件随机场为模型的语料性能测试中得到了很好的准确率和召回率,能够实现较好的的命名实体识别。
目录
摘要3
关键词3
Abstract3
Key words3
引言4
一、命名实体的识别综述4
(一)命名实体识别的发展4
(二)命名实体识别的难点4
二、语料预处理与模型简介5
(一)语料的预处理5
(二)条件随机场模型的简介5
三、特征选取以及特征研究6(一)实体特征6
(二)内部特征6
(三)外部特征7
四、实验设计和实验结果分析9
(一)词位标记长度的选取9
(二)特征选取9
(三)评价指标10
(四)基于条件随机场的整体性能11
五、结论12
致谢12
参考文献12
表1 训练语料实体长度分布样例6
表2 训练语料实体本身统计样例6
表3 训练语料内部后词样例7
表4 训练语料内部前词样例7
表5 训练语料内部后字样例7
表6 训练语料内部前字样例7
表7 训练语料外部后词样例8
表8 训练语料外部前词样例8
表9训练语料外部后字样例8
表10训练语料外部前字样例9
表11语言学特征模板下的训练语料样例10
表12条件随机场模型的整体性能测试实验结果11
表13最大熵模型的整体性能测试实验结果11
基于条件随机场模型的食品安全
 *好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2 
语料命名实体识别探究
引言
引言
命名实体识别是处理文本信息的一项关键性基础技术,在信息检索、信息抽取等诸多领域均得到了广泛的应用。随着命名实体识别方法的不断改进,识别效果也得到了极大的提升。本文通过以食品安全网络突发事件为语料库,以条件随机场模型为方法,对语料库中的机构名和人名两个命名实体进行识别分析,并对命名实体的特征进行分析。
一、命名实体的识别综述
(一)命名实体识别的发展
命名实体是语料的重要组成信息,通过对命名实体的识别可以快速掌握分析语料的主要内容。由于命名实体不同情况出现较大的差异性决定了在文本处理时首先需要进行实体词法分析,这也使中文命名实体识别的难度大大增加。中文命名实体识别起步较晚,20世纪90年代初期开始,国内一些学者对中文命名实体识别进行了一些研究。如:张小衡【1】对中文机构名称进行识别与分析,主要采用人工规则对高校名进行了实验研究。Intel中国研究中心的Zhang【2】等在ACL2000上演示了他们开发的一个抽取中文命名实体以及这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习(Memory Based Learning,MBL)算法获取规则,用以抽取命名实体及它们之间的关系。
国外对于命名识别研究主要包括:Bikel【3】等最早提出了基于隐马尔可夫模型的英文命名实体识别方法,其在MUC6测试文本集的测试结果为:英文地名、机构名和人名的识别精度分别达到了97%、94%和95%,召回率分别达到了95%、94%和94%。Ratinov【4】等采用未标注文本训练词类模型(Word Class Model)的办法,可以有效地提高NER系统的识别效率,并针对CoNLL2003的数据集开发出F1值达到90.8%的命名实体识别系统。
命名实体包括人名、地名、机构名、时间、地点日期、货币和百分比等7种【5】。人名、地名和机构名识别是最常见的三种识别类型,也是命名实体识别的核心类型。早期的命名实体识别方法多采用基于规则的方法,手工构造规则语料库,制定规则模板,通过规则匹配来识别命名实体。在小规模的语料测试上具有效果好、速度快等优点。但是工作量大,移植困难,覆盖范围局限,超出范围规则就会失效。当规则较多时很容易引起规则之间的冲突。
目前的命名实体识别主要采用基于统计的方法【6】。这种方法先建立语言模型,然后通过模型训练使模型适应训练语料,这种方法对语言的依赖性小,可移植性好。因此近年来,统计机器学习的方法得到了很好的发展。统计机器学习的方法主要分为两类:有向图模型,如隐马尔可夫模型和最大熵模型;以及无向图模型,如条件随机场模型。
(二)命名实体识别的难点
判断一个命名实体是否被正确识别包括以下两个方面:命名实体的边界是否正确,以及命名实体的类型是否标注正确。
英语中的命名实体具有比较明显的特征标志,如人名、地名等命名实体的首字母要大写等,因此实体边界识别相对容易,识别的重点是确定实体的类型【7】。和英语识别相比,中文命名实体识别任务较为复杂,其难点主要表现为以下几个方面【8】:
(1)命名实体数量和类型繁多,并且不断有新的命名实体出现,使得提升了建立一个内容丰富全面的数据库的难度。
(2)命名实体结构较为复杂,命名实体词的结构与长度因没有特定的限制而造成没有严格的可遵循的规律,音译词、外来词等没有统一的构词规范。因此,对这类命名实体识别的召回率相对较低。
(3)不同的情况时命名实体的外延存在差异性。对于命名实体界限和类型的确定,目前还未形成一个共同遵循的严格的命名规范。
(4)命名实体的识别过程常常要和中文分词、浅层语法分析等处理相结合,分词、语法分析系统的可靠性也直接决定命名实体识别的有效性,从而使得中文命名实体识别更加困难。
二、语料预处理与模型简介
(一)语料的预处理
本文命名实体的识别选择了“食品安全的网络突发事件”这一方向,不光是因为食品安全是近几年人们极为关注的热门问题,还因为食品安全的语料库中包含大量的命名实体,对于我们模型的实验进行是极有利的。由于网络上的新闻报道冗杂,所以语料库选择了专门搜集关于食品安全突发事件的相关事件并构建数据库的“掷出窗外”网站。选择3419篇关于食品安全突发事件有关的新闻进行下载,在文本文档中分别按照题目、关键词、正文的形式进行排版,将所有文本文档以新闻的题目进行命名,并为每一个文本文档从1到3419进行编号。例如:“1高鹰盼盼加锌铁米粉检出致癌物”、“2废弃物提炼食用油”“3417食品添加剂使用超标质监局开蜜饯黑名单”“3418内蒙古假奶酒乱象调查:企业持证勾兑成普遍现象”。
由于将对命名实体中的人名和机构名进行识别实验,因此将语料库中每篇文本文档提及到的人名或机构名用“【】”或“[]”进行标注。例如:该市【工商局】2011年6月发布的《关于清查问题奶酒、配制酒的通知》显示,从2010年3月开始,【赤峰市工商局】开始对上述非法生产奶酒的行为进行了清查。【王建华】表示,截至4月28日,共检查各类酒类经营户3269户,清查出问题奶酒30余个品种2933瓶,立案24起。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1067.html

好棒文