人民日报语料的地名自动识别及分析研究(附件)

本文基于已标注词性的人民日报语料,对语料中地名长度分布、地名构成字分布、地名左右边界词分布及其特征做了相应的统计;其次使用条件随机场开源工具CRF++,根据预先设计的地名识别模板与选取的边界词,把人民日报语料(1992-1997年)预处理为列标记,然后选取少量语料作为训练与测试语料,根据训练语料得到地名识别模型,并使用测试语料对该模型做测试,得到该地名识别模型效果,其精确率(precision)为99.02%,召回率(recall)为86.87%,F1值为92.54%;最终对人民日报中地名整体情况做了分析,包括人民日报中出现最多的省份和城市。文章探索了边界词对地名自动识别的作用,归纳了42年来人民日报中地名的分布规律,给地名识别提供了一种思路。
目录
摘要2
关键词2
Abstract2
Key words2
一、引言3
二、相关文献综述3
三、地名分布特征5
(一)地名长度统计5
(二)地名构成字分布6
(三)地名左右边界词的分布7
(四)地名左右边界词的特征7
四、基于条件随机场的地名自动识别模型构建7
五、基于自动识别模型的新语料地名识别8
六、地名整体情况分析10
(一)人民日报省份出现最多的排序10
(二)人民日报城市出现最多的排序11
七、结语12
致谢12
参考文献13
图1 CRF的链式结构图4
图2 CRF链式结构图的另一种表示4
图3 地名长度分布6
图4 地名自动识别模型建立过程图9
表1 地名构成字分布6
表2 地名边界词分布7
表3 20世纪不同年代省份出现比率10
表4 省份出现比例 11
表5 20世纪不同年代城市出现比率11
表6 城市出现比例 12
基于人民日报语料的地名自动识别及分析研究
引言
引言
命名实体识别是自然语言处理 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
研究中比较重要的一环,它对分词、词性标注、句法分析、信息检索与机器翻译都起着重要作用。在国内外很多组织机构也在研究命名实体识别的方法,包括机器学习方法(例,条件随机场)和深度学习方法(例,LSTM),以使得识别效果更好。文章基于42年(1946年、1948年、19501951年、19531958年、19611968年、19701976年、19801988年和19901997年)的人民日报语料,对语料中地名长度分布、地名构成字分布、地名左右边界词分布及其特征做了相应的统计;其次选择预处理的部分文本作为训练语料与测试语料,使用著名的条件随机场开源工具CRF++,训练语料,得到地名识别模型,进而再对其进行测试判断该模型效果;最终对人民日报中地名整体情况做了分析,包括人民日报中出现最多的省份、城市。在以前的研究中,很少有学者从边界词的角度进行命名实体识别,所以该研究对命名实体研究提供也种方法或思路,并且该方法也可以作为命名实体识别的一个特征,从而使得命名实体的效果有一定的提高。
二、相关文献综述
在机器学习中,序列标注(sequence labeling)是模式识别与自然语言处理中的重要任务,它涉及将分类标签的算法分配给一系列观测值的每个成员。序列标注任务的一个常见示例是词性标注的一部分,它试图为输入句子或文档中的每个单词分配一部分词性,以进一步做其他相关的实验。序列标注可以被视为一组独立的分类。一般情况下,对于给定元素的最佳标号依赖于附近元素标号的选择,通常使用特殊的算法来为整个序列选择全局最优的标签集,从而提高了精度。大多数序列标注算法本质上是概率性的,依靠统计推断来找到最佳序列。用于序列标注的最常见的统计模型是马尔可夫假设,即特定单词的标签选择直接仅取决于紧邻的标签;因此该组标签形成马尔可夫链。这自然就形成了隐马尔科夫模型(HMM),这是用于序列标记的最常用的统计模型之一。以及和马尔科夫链相关的最大熵马尔可夫模型和条件随机场。
条件随机场(conditional random fields,CRFs)是对于一系列对应的输入与输出的条件概率分布模型,但是其假设输出变量构成马尔科夫随机场,线性链条件随机场在很早之前就被学者提出,但是Lafferty等人[1]在2001年将其用于序列标注,其在分词、词性标注和分类等方面存在广泛的应用及优化。
条件随机场[2]是对于给定的被标注的数据序列上的随机变量X与其相应的标注序列的随机变量Y,CRFs描述模型是通过定义条件概率,而不是联合概率分布,条件随机场即是一个概率无向图模型。
定义1(条件随机场)[3] 设G=(V,E)为一个无向图,V和E分别为节点集合和无向边集合,即在图G中,节点表示一个随机变量Yv,Y=(Yv),即V中的每个结点对应于一个随机变量Yv,其取值范围为可能的标记集合{y}。对于观察序列X,任意节点对应的Yv 都满足以下特性:
 公式1
则称为条件随机场,其中,w~v表示在图G中与节点v有边连接的所有节点w,表示除节点v之外的所有节点[3]。
理论上,只要在标记序列中描述了一定的条件独立性,G的图结构可以是任意的,对序列进行建模可以形成最简单、最普通的链式结构(chainstructured)图,结点对应标记序列Y中的元素(图1)[4]。更直观一点,把CRFs的链式结构图画为如图2所示[4]。

图1 CRFs的链式结构图

图2 CRFs链式结构图的另一种表示
相对于隐马尔可夫模型(hidden Markov model,HMM),CRFs的主要优点在于它的条件随机性,只需要考虑当前已经出现的观测状态的特性,没有独立性的严格要求,对于整个序列内部的信息和外部观测信息均可有效利用,避免了最大熵马尔可夫模型(maximumentropy Markov model,MEMM)和其他针对线性序列模型的条件马尔可夫模型会出现的标识偏置问题,条件随机场具有最大熵马尔可夫模型的一切优点,两者的关键区别在于,最大熵马尔可夫模型使用每一个状态的指数模型来计算给定前一个状态下当前状态的条件概率,而条件随机场用单个指数模型来计算给定观察序列与整个标记序列的条件概率,故不同状态的不同特征权重可以相互交替代换[4]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/533.html

好棒文