释义语料库的词汇语义引证知识抽取及分析研究(附件)

[目的/意义]《汉语大词典》是已有汉语语文工具书规模最大的,内容浩繁。引用书证涵盖古今,利用该词典建立相关引证数据库并开展相关研究分析显得尤为重要。[方法/过程]文章首先利用基于规则的抽取方法获取了词典词汇语义引证的内部、外部信息。随后对清洗、处理过的外部数据进行描述性统计分析,探讨具体分布情况。利用CRF条件随机场进行十折交叉检验对预处理后的内部语料进行训练、测试。[结果/结论]通过分析其外部信息,可以看出中国古代文学发展的高峰时期是唐宋明清,被引用次数多的作者和作品都集中在这四个朝代;通过训练内部引证信息,得到可应用于该词典的人名、官职等实体识别的模型,最高准确率达87%,召回率达93%。
目录
摘要 1
关键词 1
Abstract. 1
Key words 1
引言: 2
一、 文献综述 2
二、 释义语料库简介 3
三、 词汇语义引证知识的自动抽取 4
(一)抽取规则 4
1.正则表达式简介 4
2.正则表达式的基本单位 4
(二)实体抽取 4
2.抽取数据再处理 5
1.规则构造与实体抽取 5
四、 词汇语义引证知识的分析 6
(一)引证外部信息分析 6
(二)引证内部信息分析 7
1.CRF模型介绍 7
2.实体识别实验 8
3.引证义项统计分布 11
五、 结语 11
致谢 11
表 1 正则表达式元字符 4
表 2 CRF文件格式 9
表 3 CRF分词后输出结果示例 10
表 4 训练评价 10
表 5 第八次实验特征评价 11
表 6 第九次实验特征评价 11
表 7 实体长度分布 11
图 1 释义语料库语料 4
图 2 朝代分布情况 6
图 3 作者分布情况 7
图 4 书名分布情况 7
图 5 Linear chain CRF 8
 *好棒文|www.hbsrm.com +Q: @351916072@ 
图 6 义项个数统计次数 11
图 7 读音个数统计次数 12
基于释义语料库的词汇语义引证知识抽取及分析研究
引言
引言:50多年前,美国的著名情报学家和科学计量学家尤金加菲尔德(Eugene Garfield)首创《科学因为索引》(SCI)、《社会科学引文索引》(SSCI)等各种数据库,提出、带动了“引文分析”这个新的研究领域的的发展。引文数据库主要记录了施引文献和被引文献间的内在关系并将这种关系用二次文献的形式予以表现[1]。通过对引文数据进行相关性分析、类别鉴定和概念描述等挖掘分析,可以发现引用文献分布规律,揭示文献内在属性。通过分析文献利用情况及其有效性可以帮助提高文献的利用率[2]。
自然语言处理是计算机科学与人工智能领域相结合的一个重要研究方向,主要研究人与计算机之间使用自然进行有效通信的理论和方法。而命名实体识别(Named Entity Recognition,简称NER)又是自然语言处理中的一个重要研究方向。其主要任务是研究如何从大量数据中准确、高效地获取有价值的信息。就目前而言,命名实体的识别从方法可以分为基于规则和基于统计两大类。早期研究主要使用基于规则的方法,但碍于其自身的局限性:人工编制规则过程过于复杂、机器学习效率低等,后来的研究逐渐转向基于统计的方法。在长时间的实践后,人们发现这二者单独使用都有不可避免的缺憾,所以近几年的研究主要集中在如何将基于规则和基于统计的方法相结合以达到效果更佳的抽取策略[34]。文本信息的抽取有别数字、日期等具有固定格式的数据,称为近些年研究的热点。常用的自然语言处理模型有隐马尔科夫模型(HMM)、最大熵模型(ME)和条件随机场模型(CRF)等。因为隐马尔可夫模型的独立性假设,无法灵活引入多种特征,最大熵模型普遍存在标记偏置问题,而线性链结构的条件随机场(CRFs)可以对整个序列范围内归一化,计算联合概率,妥善解决了HMM和ME的缺陷,,成为本研究最终选择的实验模型。
本文抽取《汉语大词典》语义引证数据,利用基于规则的抽取方法获取其内部、外部特征。对清洗、处理过的外部特征数据进行了描述性统计分析,探讨引证书目相关信息的具体分布情况。利用CRF条件随机场进行十折交叉检验对预处理后的内部语料进行训练、测试,得到可应用于该词典引证实体抽取的有效模型,最高准确率达87%,召回率93%。
一、 文献综述
命名实体识别是自然语言处理的基础任务。由于语料中的人名、地名、组织机构等命名实体数量不断增加,而又难以将其全部穷尽列出且其构成方法具有一定的规律性,因此,通常把对这些词的识别称为命名实体识别[5]。
命名实体识别的研究自MUC6于1995年首次提出任务,技术已经得到了极大的进步。应用研究领域也进一步扩大。乔磊[6]等人通过正则表达式对收集的200篇科学家简介本文进行信息块抽取并以此为根据对人物属性进行规则描述,在规则的基础上研究开发人物信息抽取算法,最终实现了半结构化的人物属性信息的自动提取。该研究使用的基于规则的信息抽取的方法为本文提供了相应实体匹配的理论指导。孙荣[7]等在利用规则抽取句子中事件信息的试验中提出了一种新的基于规则的简单高效的事件信息抽取方法,通过在公司合并、中国足球、煤矿矿难和影视评论的数据集上进行测试得到地点信息识别率0.935,时间信息识别率0.94的有效验证。刘倩[8]等人在以在线百科为数据资源的实验中提出使用基于同一属性扩展的中文属性抽取方法。通过识别同义属性在一定程度上解决了属性名称的归一化问题,相比依靠频率的抽取方法可以获得覆盖范围更为广泛的实体属性集合。张练[9]在其研究领域信息抽取的硕士论文中对基于规则的命名实体抽取给出了详细的过程展示,并给出了根据算法ExtEntity识别领域实体的具体描述。实验部分证明了该文介绍的方法在识别领域实体时取得了不错的结果并且文中所述方法具有一定的移植能力。该文对于基于规则的领域实体识别框架的详细阐述为本文提供了研究思路上的指导。刘凯[10]、史晶晶[11]、许晓丽[12]等人在其关于中文命名实体识别的研究中都使用了CRF条件随机场作为序列标记任务的机器学习方法。其中许晓丽[12]在研究中提出了适合人名、地名以及组织名的特征函数模板并通过实验验证了各类特征的作用,分析其对识别结果的影响,通过将特征有机融合提高了命名实体识别的性能和识别率。刘凯[10]的研究是以中医临床病历作为数据源,通过手工标注病历数据与特征模板,比较条件随机场、隐马尔可夫模型和最大熵马尔科夫模型实际训练效果的比较得出条件随机场有最高的准确率和召回率的结论。史晶晶[11]在其研究Web机构实体信息抽取时,考虑到机构实体信息较为复杂,没有直接应用CRF模型而是提出了新的基于层叠条件随机场模型的抽取方法。高层模型用于识别网页块,低层模型以经过清洗的高层模型输出数据为输入进特征抽取。上述三个研究都利用了CRF对中文文本进行实体抽取,但并没有局限于已有用法,而是根据实际需要处理的数据对CRF的使用进行了调整优化。为本研究的命名实体抽取提供了实际实施过程中的技术指导。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/544.html

好棒文