食品安全语料的地点命名实体识别研究

摘要:本文最大熵和条件随机场模型模型的基本原理,以及命名实体识别的相关概念,将“掷出窗外”网站关于食品安全突发事件的新闻下载整理后,进行标注。并运用相关程序,将标注词的外部前后词、内部前后词、标注词本身长度、标注词本身出现的频次进行统计,在这个过程中,整个标注的语料分成了上述的10份,其中设定训练语料为9份,测试语料是1份,分别进行10次进行试验。基于公式,结合语料的基本情况以及相应的实验结果,地点命名实体识别模型构建中确定使用5词位的标注集。本文对模型性能的评价主要采用三个指标来衡量:准确率(Precision)、召回率(Recall)、F值(F-measure),分别得到了十分高的测试结果,这表明了此次试验十分成功。
目录
摘要3
关键词3
Abstract3
Key words3
引言4
命名实体识别的相关综述4
命名实体识别的现状4
命名实体识别的研究目的和意义4
二、语料的介绍以及模型的介绍5
(一)语料的处理 5
(二)最大熵的介绍5
(三)条件随机场模型的介绍6
三、特征统计 6
(一)内部特征 7
1.内部标注前面的字统计及分析7
2.内部标注后面的字统计及分析7
3.内部标注前面的词统计及分析7
4.内部标注后面的词统计及分析8
5.实体本身统计及分析8
6.实体长度分布及分析8
(二)外部特征 8
1.外部标注前面的字统计及分析 8
2.外部标注词后面的字统计及分析9
3.标注词外部的前面的词统计及分析9
4.标注词外部的后面的词统计及分析9
四、实验过程以及实验结果 10
(一)词位标记长度的选取10
(二)特征选取及语料标注10
(三)评价指标11
(四)基于条件随机场的整体性能11
五、结论 12
致谢12
参考文献13
图1 无向图模型6

 *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
1 内部标注前面的字统计7
表2 内部标注后面的字统计7
表3 内部标注前面的词统计7
表4 内部标注后面的词统计 8
表5 实体本身统计 8
表6 实体长度分布 8
表7 外部标注前面的字统计 9
表8 外部标注词后面的字统计 9
表9 标注词外部的前面的词统计 9
表10 标注词外部的后面的词统计9
表11 条件随机场训练的语料样例10
表12 条件随机场的整体性能11
基于食品安全语料的地点命名实体识别研究
引言
引言
一、命名实体识别的相关综述
(一)命名实体识别的现状
在中文命名实体识别已有的研究成果中,初期有很多是针对人名、地名、组织名等单项命名实体进行识别的,其中,研究人名的有,地名,组织名。近两三年,随着命名实体识别技术越来越得到重视,更多的研究开始采用统一的方法同时进行各类中文命名实体的识别。
对于命名实体识别的研究已经进行了很长时间,在各种方法上都有人不断尝试并且取得了一些成果。早在60年代,外国的学者已经开始研究英语文本部分的自动此类标注问题,提出了一些消除兼类此意的方法,建立了一些自动命名实体标注系统。目前命名实体标注的方法主要有以下三种:基于规则的方法[1]、基于统计的方法、混合方法。[2]从最近的研究及标注效果来看,主流方法依然是基于统计的方法。其优势在于它的全部知识是通过对语料库的训练得到的性和很高的覆盖率。近期也出现了使用基于实例方法进行的命名实体标注,但是由于缺乏专名识别模块,系统在封闭测试中效果很好,在开放测试中则效果不佳。该方法目前仍处于初步研究中。[3]命名实体的标注常用最大熵模型、条件随机场模型和决策树分析等进行大规模的命名实体切分和标注,再结合规则模板或者手工编制的排歧词典对经过统计算法训练的模型进行择优、排歧,从而达到较为理想的结果。[4]
命名实体识别的研究目的和意义
食品安全对社会的稳定、和谐、发展具有重要意义。我国目前正处于社会转型期,各类食品突发事件层出不穷,直接影响着社会的稳定和发展。面向网络,随着资源的积累,食品安全突发事件案例知识库会不断完善。这对未来突发事件的预测、突发事件解决预案的提供有积极的参考价值,在一定程度上可以帮助决策者了解过去、把握现在、决策未来。
实体的命名实体识别能够将有关于食品安全的相关事件进行统计和分析,食品安全事件实体的标注命名实体,其作用自然是方便国家、政府、社会对食品安全进行严厉的考察,具体说来就是告诉监管者和消费者食品安全的突发事件具体在什么时候、在哪些地区、哪些机构、哪些食品容易出现问题,消费者可以减少去该地方或者减少那些食品的购买。监察者可以去相关容易发生此类事件的地方加强监管。命名实体是对语言进行语法、语义、语用分析的基础和必要前提,但是怎么样解决语料库的命名实体标注问题仍是当今的一项重要的工作。
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。在语料库信息加工的过程中,命名实体标注是一项基础性课题。命名实体识别的任务就是识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。如果命名实体识别错误,就会影响后面的句法分析和语义分析,甚至导致自然语言理解的严重错误[5]。因此命名实体识别对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义。[6]
语料的介绍以及模型的介绍
(一)语料处理
关于食品安全突发事件知识库构建的研究相对比较少,目前比较受到关注的是由复旦大学的研究生吴恒联合34名网络志愿者创建的“掷出窗外”网站,该网站上搜集了关于食品安全突发事件的相关事件并构建了数据库。针对食品安全的突发事件大部分是相关报道,我们在本部分主要是针对突发事件进行综述,以期为食品安全突发事件知识库的构建发现相关的方法和理论,并指导该知识库的构建。在进行标注的初期,我们小组的成员在“掷出窗外”这个网站,下载2802篇关于食品安全突发事件有关的新闻。在后期处理中,我们将所有的新闻都复制到文本文档中,分别按照题目、关键词、正文的形式进行排版,最后分别将每一个文本文档的题目按照新闻的题目进行命名,而且为每一个文本文档进行编号,从1到2802进行标注号码。
例如:《1高鹰盼盼加锌铁米粉检出致癌物》、《2废弃物提炼食用油 7京籍企业卷入“地沟油”大案》、《3*******》。
以上只是初步的进行搜索和处理文献。下面进行最繁重的工作,标注语料。我们小组进行名词命名实体标注,名词分为n(普通名词)、nr(人名)、ns(地名)、nt(团体名词)和nz(其他专名)。我标注了时间和地点的词语进行名词命名实体标注,时间名词用“【**】”进行标注,地点名词用“【p**】”进行标注。
在标注过程中,不仅能够将语料标注认真地完成了,而且在这个标注过程中,我还能够在标注的过程中,知道很多的生活常识。能够为以后的健康饮食、购物得到了很多的好处。通过标注,不仅能够帮助食品安全做出微薄的统计作用,而且还能够培养自己的耐心,让自己在今后的学习和工作中有一个持之以恒的好习惯。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1051.html

好棒文