面向图书情报文本的句法组块识别研究(附件)
在自然语言处理研究领域,组块分析采用了“分而治之”的方法,从而降低句法分析的复杂程度。目前在信息检索、文本分类和机器翻译系统中,组块分析的实践与应用均取得了不同程度的认可。本研究基于清华树库已经标注过的介宾结构,利用条件随机场模型进行机器学习,针对图书情报学科文本开展了介宾组块的识别与研究。最终的研究结果表明,使用复杂模板对情报学介宾结构进行识别的测试中,F值最高达到87.68%,基本达到了组块的识别要求。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
一、句法组块识别的概念 3
(一)组块识别概念与方法 3
(二)条件随机场理论 3
二、研究价值与研究方法 5
(一)研究意义 5
1.自然语言处理应用广泛 5
2.推动自然语言处理技术发展 5
3.提高机器学习性能 5
(二)研究方法 6
1.计量分析法 6
2.统计分析法 6
(1)查全率 6
(2)查准率 6
(3)综合评价指标 6
3.基于统计有指导的学习方法 7
三、国内外研究现状 8
四、语料来源与标注方法 9
(一)语料来源 9
(二)标注方法 9
五、实验过程及检验方法 11
(一)语料预处理 11
1.识别标记右边界 11
2.清洗语料 11
3.添加BMES标注 13
(二)构建特征模板 14
(三)实验测试验证方法 15
六、评价指标及结果分析 16
七、实验结论与展望 17
(一)实验结论 17
(二)未来展望 17
1.特征模板设计 17
2.相关关系提取 17
面向图书情报文本的句法组块识别研究
引言
引言
随着世界一体化的发展,信息的交换成为一体化时代的主要交流方式之一,因此 *好棒文|www.hbsrm.com +Q: ¥351916072¥
,“自然语言处理学科”,同时也被称为“计算语言学”应运而生。
在计算语言学中,采用传统的单一词汇进行句子含义、句法分析时较为困难,因此,句法分析成为了自然语言处理中难以突破的瓶颈。为了解决句子成分复杂,整体分析较为困难的一个难点问题,国内外的专家研究出了逐步处理的思想,分析句子的句法,研究其相应的组块,随着时间的发展,这项任务逐渐成为了自然语言处理的一个子任务,受到各个自然语言学处理专家的高度重视。经过多年的应用、实践和优化,句法组块分析逐渐成为浅层句法分析的代表性子任务之一。
句法组块分析的主要作用是判别句子中结构和逻辑关系相对单一,但功能和意义相对重要的组分,但其适用性问题成为阻碍其进一步发展的桎梏。其仅可将完整的句子解析成为较容易识别的小单元,却无法揭示单元之间的逻辑关系等关联性问题。对句法组块的识别研究在自然语言处理技术中因其体量小,便于研究,并且可以有效的攻克机器学习、机器翻译所产生的一些逻辑上的关系混乱等诸如此类的问题。此外,句法组块识别在信息检索等多个相关领域均有不同程度的应用价值。
目前大量关于“句法组块识别技术”的研究结果中,所采用的主流技术被称为“统计机器学习方法”,比较常用的机器学习方法包括基于向量计算的向量空间模型(SVM)[1]、根据参数确定隐藏参数的隐马尔可夫模型(HMM)[2]、基于前后序列的条件随机场模型(CRF) [3]和分析随机变量分布的最大熵模型(ME) [4,5]等。此外,除了采用单一的组块识别方法外,也可采用混合识别方法,即采用以上一种或多种不同的统计模型组合或者加入规则来识别组块[68]。
一、句法组块识别的概念
(一)组块识别概念与方法
组块,其定义是由英文Abney中的定义方法引申而来的,是符合语法功能的非递归短语结构。组块在其存在形式上,不与其他任何类型的组块共存,因此,组块的功能结构是唯一性的。
根据汉语的特点,现行的主要基本组块类别可以分为七个大类,如基本副词短语(BDP)、基本形容词短语(BAP)等等,其具体的分类和含义可见下表1 [5]。
表1 组块类别
Fig.1 Chunking category
组块
缩写
含义
副词
BDP
以副词为整体研究对象的词语组块
形容词组块
BAP
以形容词为整体研究对象的词语组块
数词组块
BMP
量词中除时间之外的量词
时间词组块
BNT
表示时间的量词或者组合型时间词
处所词组块
BNS
表示地点、地域的类似名词
名词组块
BNP
以名词为核心的名词性组块
动词组块
BVP
动趋、动补搭配,形式动词或者是实意动词
基于以上基本副词短语等7中不同类型的基本组块,本文以其中两种或两种以上基本组块组成的介宾短语结构为主要研究内容,开展实验和论述,并得出相关结论[6]。
本研究通过统计清华汉语树库TCT 973图书情报语料中的近100万字与字符,并对其中近80万个词汇进5行提取标注。统计结果显示,清华汉语树库TCT 973中共有句子约56,361个,其中介宾短语结构约为21,172个,有鉴于此,平均每2.6个句子中即出现1次介宾短语结构,可见其规模体量之大、引用范围之广。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
一、句法组块识别的概念 3
(一)组块识别概念与方法 3
(二)条件随机场理论 3
二、研究价值与研究方法 5
(一)研究意义 5
1.自然语言处理应用广泛 5
2.推动自然语言处理技术发展 5
3.提高机器学习性能 5
(二)研究方法 6
1.计量分析法 6
2.统计分析法 6
(1)查全率 6
(2)查准率 6
(3)综合评价指标 6
3.基于统计有指导的学习方法 7
三、国内外研究现状 8
四、语料来源与标注方法 9
(一)语料来源 9
(二)标注方法 9
五、实验过程及检验方法 11
(一)语料预处理 11
1.识别标记右边界 11
2.清洗语料 11
3.添加BMES标注 13
(二)构建特征模板 14
(三)实验测试验证方法 15
六、评价指标及结果分析 16
七、实验结论与展望 17
(一)实验结论 17
(二)未来展望 17
1.特征模板设计 17
2.相关关系提取 17
面向图书情报文本的句法组块识别研究
引言
引言
随着世界一体化的发展,信息的交换成为一体化时代的主要交流方式之一,因此 *好棒文|www.hbsrm.com +Q: ¥351916072¥
,“自然语言处理学科”,同时也被称为“计算语言学”应运而生。
在计算语言学中,采用传统的单一词汇进行句子含义、句法分析时较为困难,因此,句法分析成为了自然语言处理中难以突破的瓶颈。为了解决句子成分复杂,整体分析较为困难的一个难点问题,国内外的专家研究出了逐步处理的思想,分析句子的句法,研究其相应的组块,随着时间的发展,这项任务逐渐成为了自然语言处理的一个子任务,受到各个自然语言学处理专家的高度重视。经过多年的应用、实践和优化,句法组块分析逐渐成为浅层句法分析的代表性子任务之一。
句法组块分析的主要作用是判别句子中结构和逻辑关系相对单一,但功能和意义相对重要的组分,但其适用性问题成为阻碍其进一步发展的桎梏。其仅可将完整的句子解析成为较容易识别的小单元,却无法揭示单元之间的逻辑关系等关联性问题。对句法组块的识别研究在自然语言处理技术中因其体量小,便于研究,并且可以有效的攻克机器学习、机器翻译所产生的一些逻辑上的关系混乱等诸如此类的问题。此外,句法组块识别在信息检索等多个相关领域均有不同程度的应用价值。
目前大量关于“句法组块识别技术”的研究结果中,所采用的主流技术被称为“统计机器学习方法”,比较常用的机器学习方法包括基于向量计算的向量空间模型(SVM)[1]、根据参数确定隐藏参数的隐马尔可夫模型(HMM)[2]、基于前后序列的条件随机场模型(CRF) [3]和分析随机变量分布的最大熵模型(ME) [4,5]等。此外,除了采用单一的组块识别方法外,也可采用混合识别方法,即采用以上一种或多种不同的统计模型组合或者加入规则来识别组块[68]。
一、句法组块识别的概念
(一)组块识别概念与方法
组块,其定义是由英文Abney中的定义方法引申而来的,是符合语法功能的非递归短语结构。组块在其存在形式上,不与其他任何类型的组块共存,因此,组块的功能结构是唯一性的。
根据汉语的特点,现行的主要基本组块类别可以分为七个大类,如基本副词短语(BDP)、基本形容词短语(BAP)等等,其具体的分类和含义可见下表1 [5]。
表1 组块类别
Fig.1 Chunking category
组块
缩写
含义
副词
BDP
以副词为整体研究对象的词语组块
形容词组块
BAP
以形容词为整体研究对象的词语组块
数词组块
BMP
量词中除时间之外的量词
时间词组块
BNT
表示时间的量词或者组合型时间词
处所词组块
BNS
表示地点、地域的类似名词
名词组块
BNP
以名词为核心的名词性组块
动词组块
BVP
动趋、动补搭配,形式动词或者是实意动词
基于以上基本副词短语等7中不同类型的基本组块,本文以其中两种或两种以上基本组块组成的介宾短语结构为主要研究内容,开展实验和论述,并得出相关结论[6]。
本研究通过统计清华汉语树库TCT 973图书情报语料中的近100万字与字符,并对其中近80万个词汇进5行提取标注。统计结果显示,清华汉语树库TCT 973中共有句子约56,361个,其中介宾短语结构约为21,172个,有鉴于此,平均每2.6个句子中即出现1次介宾短语结构,可见其规模体量之大、引用范围之广。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/493.html