隐马尔科夫模型实体识别
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重调整。用自然语言作为人机交互已是必然趋势,这对自然语言处理的深度和广度提出了越来越高的要求。命名实体识别作为信息抽取的重要部分,自MUC(Message Understanding Conference)会议上提出以来,越来越受到自然语言处理研究者的关注,并成为很多应用中的关键技术[1]。
本文首先介绍了信息抽取领域的研究背景和现状,然后介绍了隐马尔科夫模型及其常用方法,接着重点描述了一种基于上下文隐马尔科夫模型。本文对命名实体识别的方法进行了研究,分析了基于规则的方法和基于统计方法的优缺点。基于上下文隐马尔科夫模型的特点是将连续的三个单词的词形和词性作为观察值类型。 HM000002
本文识别的主要内容为实体词,即人名、地名。本文详细介绍了所实现原型系统的设计方案,并设置了一组对比实验。实验表明,基于上下文隐马尔科夫模型的抽取效果更好。
关键词:信息抽取;隐马尔科夫模型;命名实体识别;上下文隐马尔科夫模型
The research on Information Extraction (IE) aims at providing more powerful information access tools to help people overcome the problem of information overloading. Using natural language as HCI (Human-Computer Interactive) is an inevitable trend, for which the depth and breadth about nature language processing is demanded more strictly. Since proposed in MUC (Message Understanding Conference) meeting for the first time, Named Entity Recognition (NER) has been acting as an important role in Information Extraction and now earning wide concern.
First, the research background and the state of the art of Information Extraction field are introduced, and then the approaches to apply Hidden Markov Model (HMM) to Information Extraction are shown. The thesis introduces the method of Named Entity Recognition, analysis the advantages and disadvantages about the rule-based method and the statistical methods. The key characteristic of a Hidden Markov Model with context features (Context HMM) is that it takes the word form and part-of-speech of three consecutive words as the observation type.
This paper mainly identities the names and places. The design architecture of the prototype system is introduced in detail, and several experiments on two different HMM (Context HMM and Word&POS HMM) are performed as well. Experiments show that the Context HMM can extract better.
Key words: Information Extraction; Hidden Markov Model; Named Entity Recognition; Context Hidden Markov Model
第1章 绪论 查看完整请+Q:351916072获取
1.1研究背景及意义
随着万维网信息技术的发展,计算机网络规模的日益扩大,尤其是高速网络的普及,互联网上的文本信息呈指数级增长。面对信息急剧的膨胀,如何快速、准确地从中获取需要的信息,越来越受到人们的关注。许多新的信息处理技术,比如信息抽取(Information Extraction, IE)、信息检索(Information Retrieval, IR)、机器翻译(Machine Translation, MT)、数据挖掘(Data Mining, DM)等的研究在此需求背景下产生[2]。
(文本)信息抽取是一种自然语言处理(Natural Language Processing, NLP)任务,按比较正式的说法,信息抽取是指从一段文本中抽取出指定的一类信息(例如事件、事实)并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。例如从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等。
信息抽取涉及到两个方面的因素:用户指定感兴趣的信息特征,以及待分析的文本集(数据源);系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。与其他信息处理技术相比,信息检索只是找出满足一定检索条件的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息;自动文摘、文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。
在这些得到广泛应用的信息处理技术中有一个共同而基础的问题就是命名实体识别(Named Entity Recognition, NER)。命名实体识别的任务主要是识别出文本中出现的专有名称和有意义的数量短语并加以归纳,主要包括人名、地名、机构名、专有名词等。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。命名实体识别的过程通常包括两部分:实体边界识别;确定实体类别(人名、地名、机构名或其他)。
命名实体识别是进行文本处理的一个前提工作,识别的质量会直接影响到后续的一系列的工作。在自然语言处理领域,实体识别对于机器翻译、文本检索、信息抽取和文本分类等应用领域有重要作用,能够显著的提高信息检索、信息提取和自然语言理解等系统的性能,为从文本中自动获取知识奠定了基础。
1.2研究现状
从20世纪80年代末开始,随着消息理解系列会议(Message Understanding Conference, MUC)的召开,信息抽取研究蓬勃发展起来。MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展,同时也使命名实体识别任务日益受到人们的重视。此外,美国的自动内容抽取(Automatic Content Extraction, ACE)评测会议、文本理解会议(Document Understanding Conference, DUC)、多语种实体评价任务(Multilingual Entity Task Evaluation, MET)国内的863评测会议也关注信息抽取领域[3]。
MUC评测会议
从1987年开始到1998年,MUC会议一共举办了七届,其由美国国防高级研究计划委员会(the Defense Advanced Research Projects Agency, DARPA)资助。MUC-6第一次引入了命名实体识别任务,主要是识别出文本中出现的专有名词和有意义的数量短语并加以归类。它包括三个子任务:
1)实体名(Entity Name):包括人名、地名、机构名;
2)时间表达式(Temporal Expressions):包括日期、时间和持续时间;
3)数字表达式(Number Expressions):包括货币、度量衡、百分比和基数。
在1998年召开的MCU-7会议中,命名实体被分类为以下7种:人名、地名、机构名、日期、时间、金额和百分比。由于命名实体多是分词系统中词典没有收录的词,所以命名实体识别的困难在于:1)在不同领域和场景下,命名实体的外延有差异,即分类模糊的问题;2)数量巨大,不能枚举并且一直在发展当中,普通的标志名不可能全部收录在词典中;3)某些类型的实体名称变化频繁,并且没有严格的规律可以遵循,其中以组织名的构词规则最为复杂;4)表达形式多样,命名实体的变化多种多样;5)首次出现后往往采用缩写形式;6)实体类型的歧义性;7)实体名和普通名词之间的歧义性。
ACE评测会议
ACE于2000年12月正式启动,由美国国家安全局(NSA)、美国国家标准和技术学会(NIST, National Institute of Standards and Technology)以及中央情报局(CIA)共同主管,到2007年最新一届为止一届举办过七届。ACE主要关注6个领域信息:网络上的专线新闻(Newswire)、通过自动语音识别(ASR)得到的广播新闻(Broadcast Conversations)、通过光学字符识别(OCR)得到的报纸新闻(Newspaper)、新闻组(Usenet)、对话性的电话谈话(Conversational Telephone Speech)和网络日志(Weblog)。其评测任务为实体探测和识别(Entity Detection and Recognition, EDR)等。ACE的目标是发展包括自动识别和标识文本在内的自动内容抽取技术,以支持对语料库的自动处理。
与MUC相比,目前的ACE评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross document processing)能力进行评测。这一新的评测会议不断地把信息抽取技术研究引向新的高度。
目 录 查看完整请+Q:351916072获取
摘 要 I
ABSTRACT II
第1章 绪论 1
1.1研究背景及意义 1
1.2研究现状 2
1.3本文的研究内容 3
1.4 本文内容安排 4
第2章 信息抽取基础知识 5
2.1信息抽取的概念 5
2.2命名实体识别的概念 6
2.3命名实体识别的评测标准 6
2.4命名实体识别及相关模型和算法 8
2.4.1基于规则的方法 8
2.4.2基于统计的方法 9
2.4.3 数据平滑算法 11
2.5小结 11
第3章 隐马尔科夫模型简介 12
3.1隐马尔科夫模型 12
3.1.1隐马尔科夫模型的组成 13
3.1.2隐马尔科夫的三个基本问题 15
3.1.3隐马尔科夫模型的主要算法 15
3.2基于隐马尔科夫模型的信息抽取 23
3.3基于上下文特征的隐马尔科夫模型 26
3.4小结 26
第4章 系统设计开发 28
4.1 开发环境 28
4.2 系统运行流程 28
4.2.1 数据预处理 28
4.2.2 训练隐马尔科夫模型参数 31
4.2.3 利用隐马尔科夫模型进行抽取(命名实体识别) 33
4.3 系统操作说明 35
4.3.1 文本预处理操作 35
4.3.2 利用HMM进行命名实体抽取操作 35
4.4 小结 37
第5章 实验与结果分析 38
5.1 实验数据集及评测标准 38
5.2 实验方案设计及结果分析 38
5.2.1 Word&POS HMM(基于单词加词性的隐马尔科夫模型) 39
5.2.2 Context HMM(基于上下文的隐马尔科夫模型) 40
5.2.3 Word&POS与Context HMM的综合比较 41
5.3 小结 43
第6章 结束语 44
参考文献 45
致谢 47 查看完整请+Q:351916072获取
本文首先介绍了信息抽取领域的研究背景和现状,然后介绍了隐马尔科夫模型及其常用方法,接着重点描述了一种基于上下文隐马尔科夫模型。本文对命名实体识别的方法进行了研究,分析了基于规则的方法和基于统计方法的优缺点。基于上下文隐马尔科夫模型的特点是将连续的三个单词的词形和词性作为观察值类型。 HM000002
本文识别的主要内容为实体词,即人名、地名。本文详细介绍了所实现原型系统的设计方案,并设置了一组对比实验。实验表明,基于上下文隐马尔科夫模型的抽取效果更好。
关键词:信息抽取;隐马尔科夫模型;命名实体识别;上下文隐马尔科夫模型
The research on Information Extraction (IE) aims at providing more powerful information access tools to help people overcome the problem of information overloading. Using natural language as HCI (Human-Computer Interactive) is an inevitable trend, for which the depth and breadth about nature language processing is demanded more strictly. Since proposed in MUC (Message Understanding Conference) meeting for the first time, Named Entity Recognition (NER) has been acting as an important role in Information Extraction and now earning wide concern.
First, the research background and the state of the art of Information Extraction field are introduced, and then the approaches to apply Hidden Markov Model (HMM) to Information Extraction are shown. The thesis introduces the method of Named Entity Recognition, analysis the advantages and disadvantages about the rule-based method and the statistical methods. The key characteristic of a Hidden Markov Model with context features (Context HMM) is that it takes the word form and part-of-speech of three consecutive words as the observation type.
This paper mainly identities the names and places. The design architecture of the prototype system is introduced in detail, and several experiments on two different HMM (Context HMM and Word&POS HMM) are performed as well. Experiments show that the Context HMM can extract better.
Key words: Information Extraction; Hidden Markov Model; Named Entity Recognition; Context Hidden Markov Model
第1章 绪论 查看完整请+Q:351916072获取
1.1研究背景及意义
随着万维网信息技术的发展,计算机网络规模的日益扩大,尤其是高速网络的普及,互联网上的文本信息呈指数级增长。面对信息急剧的膨胀,如何快速、准确地从中获取需要的信息,越来越受到人们的关注。许多新的信息处理技术,比如信息抽取(Information Extraction, IE)、信息检索(Information Retrieval, IR)、机器翻译(Machine Translation, MT)、数据挖掘(Data Mining, DM)等的研究在此需求背景下产生[2]。
(文本)信息抽取是一种自然语言处理(Natural Language Processing, NLP)任务,按比较正式的说法,信息抽取是指从一段文本中抽取出指定的一类信息(例如事件、事实)并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。例如从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等。
信息抽取涉及到两个方面的因素:用户指定感兴趣的信息特征,以及待分析的文本集(数据源);系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。与其他信息处理技术相比,信息检索只是找出满足一定检索条件的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息;自动文摘、文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。
在这些得到广泛应用的信息处理技术中有一个共同而基础的问题就是命名实体识别(Named Entity Recognition, NER)。命名实体识别的任务主要是识别出文本中出现的专有名称和有意义的数量短语并加以归纳,主要包括人名、地名、机构名、专有名词等。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。命名实体识别的过程通常包括两部分:实体边界识别;确定实体类别(人名、地名、机构名或其他)。
命名实体识别是进行文本处理的一个前提工作,识别的质量会直接影响到后续的一系列的工作。在自然语言处理领域,实体识别对于机器翻译、文本检索、信息抽取和文本分类等应用领域有重要作用,能够显著的提高信息检索、信息提取和自然语言理解等系统的性能,为从文本中自动获取知识奠定了基础。
1.2研究现状
从20世纪80年代末开始,随着消息理解系列会议(Message Understanding Conference, MUC)的召开,信息抽取研究蓬勃发展起来。MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展,同时也使命名实体识别任务日益受到人们的重视。此外,美国的自动内容抽取(Automatic Content Extraction, ACE)评测会议、文本理解会议(Document Understanding Conference, DUC)、多语种实体评价任务(Multilingual Entity Task Evaluation, MET)国内的863评测会议也关注信息抽取领域[3]。
MUC评测会议
从1987年开始到1998年,MUC会议一共举办了七届,其由美国国防高级研究计划委员会(the Defense Advanced Research Projects Agency, DARPA)资助。MUC-6第一次引入了命名实体识别任务,主要是识别出文本中出现的专有名词和有意义的数量短语并加以归类。它包括三个子任务:
1)实体名(Entity Name):包括人名、地名、机构名;
2)时间表达式(Temporal Expressions):包括日期、时间和持续时间;
3)数字表达式(Number Expressions):包括货币、度量衡、百分比和基数。
在1998年召开的MCU-7会议中,命名实体被分类为以下7种:人名、地名、机构名、日期、时间、金额和百分比。由于命名实体多是分词系统中词典没有收录的词,所以命名实体识别的困难在于:1)在不同领域和场景下,命名实体的外延有差异,即分类模糊的问题;2)数量巨大,不能枚举并且一直在发展当中,普通的标志名不可能全部收录在词典中;3)某些类型的实体名称变化频繁,并且没有严格的规律可以遵循,其中以组织名的构词规则最为复杂;4)表达形式多样,命名实体的变化多种多样;5)首次出现后往往采用缩写形式;6)实体类型的歧义性;7)实体名和普通名词之间的歧义性。
ACE评测会议
ACE于2000年12月正式启动,由美国国家安全局(NSA)、美国国家标准和技术学会(NIST, National Institute of Standards and Technology)以及中央情报局(CIA)共同主管,到2007年最新一届为止一届举办过七届。ACE主要关注6个领域信息:网络上的专线新闻(Newswire)、通过自动语音识别(ASR)得到的广播新闻(Broadcast Conversations)、通过光学字符识别(OCR)得到的报纸新闻(Newspaper)、新闻组(Usenet)、对话性的电话谈话(Conversational Telephone Speech)和网络日志(Weblog)。其评测任务为实体探测和识别(Entity Detection and Recognition, EDR)等。ACE的目标是发展包括自动识别和标识文本在内的自动内容抽取技术,以支持对语料库的自动处理。
与MUC相比,目前的ACE评测不针对某个具体的领域或场景,采用基于漏报(标准答案中有而系统输出中没有)和误报(标准答案中没有而系统输出中有)为基础的一套评价体系,还对系统跨文档处理(Cross document processing)能力进行评测。这一新的评测会议不断地把信息抽取技术研究引向新的高度。
目 录 查看完整请+Q:351916072获取
摘 要 I
ABSTRACT II
第1章 绪论 1
1.1研究背景及意义 1
1.2研究现状 2
1.3本文的研究内容 3
1.4 本文内容安排 4
第2章 信息抽取基础知识 5
2.1信息抽取的概念 5
2.2命名实体识别的概念 6
2.3命名实体识别的评测标准 6
2.4命名实体识别及相关模型和算法 8
2.4.1基于规则的方法 8
2.4.2基于统计的方法 9
2.4.3 数据平滑算法 11
2.5小结 11
第3章 隐马尔科夫模型简介 12
3.1隐马尔科夫模型 12
3.1.1隐马尔科夫模型的组成 13
3.1.2隐马尔科夫的三个基本问题 15
3.1.3隐马尔科夫模型的主要算法 15
3.2基于隐马尔科夫模型的信息抽取 23
3.3基于上下文特征的隐马尔科夫模型 26
3.4小结 26
第4章 系统设计开发 28
4.1 开发环境 28
4.2 系统运行流程 28
4.2.1 数据预处理 28
4.2.2 训练隐马尔科夫模型参数 31
4.2.3 利用隐马尔科夫模型进行抽取(命名实体识别) 33
4.3 系统操作说明 35
4.3.1 文本预处理操作 35
4.3.2 利用HMM进行命名实体抽取操作 35
4.4 小结 37
第5章 实验与结果分析 38
5.1 实验数据集及评测标准 38
5.2 实验方案设计及结果分析 38
5.2.1 Word&POS HMM(基于单词加词性的隐马尔科夫模型) 39
5.2.2 Context HMM(基于上下文的隐马尔科夫模型) 40
5.2.3 Word&POS与Context HMM的综合比较 41
5.3 小结 43
第6章 结束语 44
参考文献 45
致谢 47 查看完整请+Q:351916072获取
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/3317.html