先秦典籍的时间表达式自动抽取及分析研究(附件)

本文基于先秦典籍,选用条件随机场模型,搭建了对于时间表达式的自动抽取的模型。为保证模型的可用性,对语料中时间词的内外部特征进行统计分析,再把选定的关键特征加到特征模板中促进模型构建。本文在选定的特征模板基础之上,得出由十折法训练出来的最优时间表达式抽取模型的F值最高为90.44%。
目录
摘要 2
关键词 2
Abstract 2
Key words 2
引言 3
一、研究文献综述 3
(一)时间表达式研究综述 3
(二)先秦典籍中命名实体的抽取研究综述 4
二、 基于先秦典籍的时间表达式统计分析 4
(一)语料库简介 4
(二)时间表达式相关特征统计 5
1.时间表达式内部结构分布 5
2. 时间表达式的左右边界特征词 5
(三)条件随机场模型和语料预处理 6
1. 模型概述 6
2. 《楚辞》语料预处理 7
三、 时间表达式自动抽取的模型及识别实验 8
(一)特征模板的确定 8
(二)模型构建的流程和评价指标 9
(三)训练模型的确定和新语料识别实验 10
四、结语 11
致谢 11
参考文献 11
图 1A 一阶隐马尔科夫模型有向图 7
图 1B 线性链条件随机场无向图 7
图 2 时间表达式抽取模型构建流程 10
表 1 时间表达式结构分类频次表 5
表 2 时间表达式的左边界特征词 5
表 3 时间表达式的右边界特征词 6
表 4 先秦典籍时间表达式语料预处理结果样例 7
表 5 基于特征模板的先秦古汉语时间表达式自动识别训练语料样例 8
表 6 特征模板说明 9
表 7 时间表达式自动识别抽取模型的测试性能 10
基于先秦典籍的时间表达式自动抽取及分析研究
引言
引言
时间表达式在我们日常工作生活中必不可少,是关键的语义 *好棒文|www.hbsrm.com +Q: @351916072@ 
载体之一。根据时间所词蕴涵的信息,能够掌握事件大致的情况,且能够按照时间词所提供的信息对整个事件进行有序的梳理,还原整个事件的发生。时间表达式识别广泛应用在很多自然语言处理领域中,例如在多篇文档的文档摘要中,时间词的识别有助于按照时间顺序进行排列;在自动应答系统中,能够解决“在哪个时间点、持续多长时间”系列问题;在自动翻译系统中,能够通过定位时间词,确定时态,大大提升翻译的逻辑精准度。所以,时间表达式识别准确度的高低与相关系统性能的好坏密切相关,目前,相关的文本信息处理研究离不开时间表达式的识别这项工作。面向命名实体的识别抽取研究已有较多可观成果,时间表达式是命名实体中的一种,现有研究较少,且已有研究集中针对于现代汉语语料,如今在现代文本领域方面,中文信息处理在许多方面已经投入实用,而以古代汉语文本为对象的信息处理则急需研究探索。古文相关学科的研究发展迫切需要现代信息技术的参与,人类专家的学术研究过程需要得到古文信息处理技术及其研究成果的辅助。鉴于此背景,古代汉语文本数字化、语料化和语义化在业界成为必然趋势。因此,本文基于现有研究,通过条件随机场(CRF)这一经典模型,面向由《楚辞》构成的语料库,建立基于先秦典籍的时间表达式自动识别抽取模型,并对《诗经》进行简单的模型抽取验证。
一、研究文献综述
(一)时间表达式研究综述
时间表达式的识别抽取在中文信息处理研究领域至关重要,抽取出的时间信息既可以作为基本素材用于构建相关知识库,还可用于用于信息检索中对某一事件进行定位确定事情发生的具体时间点,以及用于特定知识的时序信息分析,此外,时间表达式的抽取还能够解答大多与时间有关的问题。2004年4月份,“TIDES 2003标准用于时间表达式的注释”发布中文补充说明版,其中公布的对时间表达式含义的定义是:时间表达式可以看作是时间单元的一个排列组合,也就是说时间表达式通常由几个时间单元排列组合而成,例如在文档提到“前天早晨八点半的时候”,该句话即由3个时间单元组成,分别为“前天”、“早晨”、“八点半”。在一个文本中,时间表达式通常代表某一时刻、某一时间区域或是某一时间频率,往往由副词、量词、名词、形容词及介词组成。吴琼[1]在中文时间表达式自动识别的研究一文中依据现代汉语时间表达式的特征,把时间表达式由本来的4类修改成了7类:LUNAR类、DURATION类、DATE类、RELATIVETIME类、TIME类、FUZZY类、SET类。郭宏蕾等[2]从中文一词多义这一角度,提出了浅层语义时间表达式和深层语义时间表达式两种结构。
面向英文文本中时间表达式的抽取,可以通过时间词的时态特征或引导词完成。但对于中文文本中时间表达式的抽取,不仅不含时态特征词,而且由于中文时间实体在语句中可以充当主谓宾状补等多种语法角色,因此出现多义语言悖论现象,一般我们可以把时间表达式分为2种:(1)隐性时间表达式(2)显性时间表达式,隐性时间表达式指的是需要理解词或短语的构成才能推测出其表明时间含义的时间表达式(例如:当开始下雨时),显性时间表达式则指的是由显然的表达时间含义的词或短语构成的时间表达式(例如:昨天下午三点)。隐性时间表达式出现在结构不明显的句子中,通常需要理解上下文语境才能够推断,以上都是导致中文时间表达式难以抽取及抽取精度低的重要原因。
国内外时间表达式识别抽取研究的现有途径可分为2类:第一是基于规则的方法,李君婵[3]等以词性为基础,由时间单元构成规则库,通过这一方法对时间表达式进行识别抽取,有效的消除了由于一般规则会存在的抽取粒度过粗的情况,并从语言本身的角度去发现时间表达式之间的关联和共同体现出的规律,大大提高了识别的准确度。邬桐[5]则先利用“时间基元”将时间词进行细化,再基于启发式规则进行时间词的抽取,最后借助错误驱动对建立的规则库删改,进而提升基于规则抽取的F值。林静[6] 在中文时间信息的TIMEX2自动标注一文中研究出在正则表达式基础上面向中文语料的TIMEX2词汇左右边界识别方法。,Wu 等[4] 建立了基于中文语料语法的TERN时间表达式抽取的一种规则。第二是基于机器学习的方法,这种方法一般依赖于统计模型的利用,我们常见的统计模型有:条件随机场模型(CRF)及条件最大熵模型(CME)。其中条件最大熵模型的优势是可以在同一个框架下刻画出各种不同特征,且无需针对特征的独立性假设,其劣势是时空复杂度大,较为耗费资源;而条件随机场(CRF)模型能找出全局最优解,并且可以充分运用实体的语境特征,但测试结果受训练语料的质量影响极大,还会存在词序依赖和数据量极端分化的问题。刘莉[8]等则在中文时间表达式抽取识别中加入浅层语义分析中的词性标注,并在条件随机场模型训练中取得了较高的抽取识别度。朱莎莎[7]等利用CRF模型加入表征对间隔较大的语境信息依赖的强度的任意特征,把中文时间表达式划分为两种类型:日期型和事件型,在一定程度上避免了因为时间词数不足而导致的误差偏大的问题。基于此,本文基于条件随机场(CRF)来搭建面向先秦典籍语料的时间表达式的自动抽取模型。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/529.html

好棒文