词典的先秦词汇汉英对照义项自动抽取研究(附件)
语词的消岐处理是自然语言处理中的一项基本工作,但在古汉语领域文本的处理中还存在空白。本文针对先秦古汉语语料,在缺少人工标注语料的条件下,以《汉语大词典》作为知识获取源,将词条抽取为义项集合,构建了先秦古汉语词典,同时参照先秦古汉语的汉英对照语料库,对《墨家》、《孟子》、《论语》进行了基于词典的先秦词汇汉英对照义项的抽取实验,基于频度、义项数选取了“非”、“义”、“必”三个词进行了检验,平均F值达到81.01%。该方法对于缺乏初始语料的古汉语义项抽取具有指导作用,为古汉语检索系统的建设提供初始指导。在古汉语全文标注的初始阶段,可以给出高质量的初始数据,为英汉平行语料库的构建提供句子级和词汇级对齐的指导,为古汉语英语双语检索系统的建立提供帮助。
目录
摘要 2
关键词 2
Abstract 2
Keywords 2
一、引言 3
二、相关研究 3
(一)自动抽取技术综述 3
(二)语料库相关研究综述 4
1.基于长度的方法 4
2.基于词汇的方法 5
3.混合处理方法 5
三、基于词典的义项自动抽取方法 5
(一)基于词典的语料库预处理 5
(二)基于词典的自动抽取的实现过程 6
四、实验 7
(一)数据来源 7
(二) 实验流程设计 7
(三) 基于词典的自动抽取实验 11
1.“非”字消岐实验 12
2.“义”字消岐实验 12
3.“必”字消岐实验 13
(四)实验结果 13
(五)基于实验的网页检索系统效果实现 14
五、总结与展望 15
致谢 16
参考文献: 17
图1 自动抽取的主要方法 4
图2 “非”的第一个读音在《大词典》中的释义表示 7
图3 实验流预处理流程图 8
图4 汉英双语语料库对齐语料样例 9
图5 “基于词典的先秦词汇汉英对照义项”检索系统流程图 14
图6 先秦典籍英汉对照语料库检索系 *好棒文|www.hbsrm.com +Q: ¥351916072$
统检索界面 14
图7 先秦典籍英汉对照语料库检索系统结果展示界面 15
目录
表2 《汉语大词典》先秦词汇词义项数(前20项) 10
表3 操作语料词频统计结果(前20项) 10
表4 “先秦汉语汉语英语”匹配词典样例(“乱”为例) 11
表5 先秦词典中“非、必、义”三词的词频数与义项数 11
表6 义项抽取结果中各义项占结果比例、F值 13
基于词典的先秦词汇汉英对照义项自动抽取研究
引言
引言
词汇义项自动抽取,是词义消岐的一种应用,指对词汇进行识别,并将其不同的义项进行抽取和标注,从而达到消除词汇语义兼类的目地。在词义消歧方法中,有监督方法的效果最好,例如,基于最大熵模型的方法和基于支持向量机的方法,然而,有监督的方法往往需要大量的人工标注数据集,其结果高度依赖于训练数据集,其泛化能力较差,因此本文采用了基于词典的方法进行义项自动抽取的实验,相比前者,减少了对人工标注语料的依赖性,虽然准确率不如前者,但可以在缺少人工标注语料的前提下,提供初始的自动抽取结果。
首先,在词典的选择上,《汉语大词典》是目前公认的能够解决古汉语文献词义标注的词典。该词典收录了30多万条词条,列出了古代汉语词义和最初的高质量用词案例。选用《汉语大词典》构建分词词典,在处理前提取样本句作为观察实例,并对模板进行归纳,以提高后续提取结果的准确性[1]。英语词典的构建选用了有道词典的网络版(http://dict.youdao.com/)接口作为构建工具,直接将古汉语对应的所有现代汉语义项传入有道词典的网络接口,获取了其对应英文的所有义项。
其次,为了提高实验消歧效果,本文在段落级语料库的基础上引入了汉英平行语料库的思想。根据Gale[2]的对齐算法构建了实验所用的先秦典籍汉英对照双语句子级语料库。其中,汉英平行语料库的平行处理是指在处理一种语言时,尽量使用另一种语言来消除语言的歧义。,也是目前机器翻译领域应用较多的方法。本文采用汉英平行语料库进行义项抽取实验,能为义项抽取的进行提供一定的指导。
在语料库的建立上,选用先秦典籍中的《墨家》、《孟子》、《论语》的段落级对齐汉英对照语料作为实验语料,陈小荷[3]的研究指出此三本都是属于政论类的典籍,其篇幅分别达到7.94万字、3.54万字、1.59万字,共十三余万字,具有一定的代表性。
经过本文的研究,能到用于抽取先秦词汇义项的模板,以及提取相关模板和规范的流程,可以在今后的古汉语全文词义标注的起步阶段提供高质量的初始结果,可以为英汉平行语料库建立中的句子级、词汇级对齐提供指导,为古汉语英语双语检索系统的建立提供帮助。
本文后续部分结构如下,第二节介绍了词汇义项自动抽取的相关研究和平行双语语料库建立的相关研究;第三节对本文使用的基于词典的词汇自动抽取的相关原理进行了描述;第四部分对实验设计的相关原则进行了分析,并对实验结果进行了分析,最后完成了实验相关应用的实现;第五部分给出了本文的结论及后续的研究工作和展望。
二、相关研究
(一)自动抽取技术综述
自动词提取的研究已有20年的历史。20世纪90年代,国外出现了一些自动字词提取系统,而国内的研究主要集中在过去10年,主要是在国外研究的基础上对现有的方法进行改进。[4]。
在初始词的自动提取中,经常使用基于语言知识的方法。随着基于统计的自然语言处理技术的兴起,各种统计策略逐渐引入到词汇义项抽取系统中。然而,随着利用隐马尔可夫模型(HMM)、条件随机场(CRF)等机器学习算法对词性进行标记、命名实体识别等领域的使用,结合机器学习算法的方法也被引入到语词的抽取研究中[5]。目前,三种词汇自动抽取的方法被广泛使用,分别是:基于规则的方法、基于统计的方法和多种方法相结合的方法[4]。如图1所示。
/
图1 自动抽取的主要方法
综上,多种方法相结合能够达到互为补充的效果,以各种方法的优势,来弥补其他单一方法的缺点,在研究中取得了较好的结果?
(二)语料库相关研究综述
语料库是收集特定语言的原始语料和其被翻译为另外一种对齐语料的语料库[6]。对照语料库是把包括原始语料文本及其对齐翻译语料的两种或更多的语言作为一些成份来进行研究[2],因此,只要两种语言的篇章文本级语料库达到翻译对齐的水平,就可以称之为平行语料库。汉英语料库也属于平行语料库的范畴,它是指涉及汉语和英语的平行语料库。
目录
摘要 2
关键词 2
Abstract 2
Keywords 2
一、引言 3
二、相关研究 3
(一)自动抽取技术综述 3
(二)语料库相关研究综述 4
1.基于长度的方法 4
2.基于词汇的方法 5
3.混合处理方法 5
三、基于词典的义项自动抽取方法 5
(一)基于词典的语料库预处理 5
(二)基于词典的自动抽取的实现过程 6
四、实验 7
(一)数据来源 7
(二) 实验流程设计 7
(三) 基于词典的自动抽取实验 11
1.“非”字消岐实验 12
2.“义”字消岐实验 12
3.“必”字消岐实验 13
(四)实验结果 13
(五)基于实验的网页检索系统效果实现 14
五、总结与展望 15
致谢 16
参考文献: 17
图1 自动抽取的主要方法 4
图2 “非”的第一个读音在《大词典》中的释义表示 7
图3 实验流预处理流程图 8
图4 汉英双语语料库对齐语料样例 9
图5 “基于词典的先秦词汇汉英对照义项”检索系统流程图 14
图6 先秦典籍英汉对照语料库检索系 *好棒文|www.hbsrm.com +Q: ¥351916072$
统检索界面 14
图7 先秦典籍英汉对照语料库检索系统结果展示界面 15
目录
表2 《汉语大词典》先秦词汇词义项数(前20项) 10
表3 操作语料词频统计结果(前20项) 10
表4 “先秦汉语汉语英语”匹配词典样例(“乱”为例) 11
表5 先秦词典中“非、必、义”三词的词频数与义项数 11
表6 义项抽取结果中各义项占结果比例、F值 13
基于词典的先秦词汇汉英对照义项自动抽取研究
引言
引言
词汇义项自动抽取,是词义消岐的一种应用,指对词汇进行识别,并将其不同的义项进行抽取和标注,从而达到消除词汇语义兼类的目地。在词义消歧方法中,有监督方法的效果最好,例如,基于最大熵模型的方法和基于支持向量机的方法,然而,有监督的方法往往需要大量的人工标注数据集,其结果高度依赖于训练数据集,其泛化能力较差,因此本文采用了基于词典的方法进行义项自动抽取的实验,相比前者,减少了对人工标注语料的依赖性,虽然准确率不如前者,但可以在缺少人工标注语料的前提下,提供初始的自动抽取结果。
首先,在词典的选择上,《汉语大词典》是目前公认的能够解决古汉语文献词义标注的词典。该词典收录了30多万条词条,列出了古代汉语词义和最初的高质量用词案例。选用《汉语大词典》构建分词词典,在处理前提取样本句作为观察实例,并对模板进行归纳,以提高后续提取结果的准确性[1]。英语词典的构建选用了有道词典的网络版(http://dict.youdao.com/)接口作为构建工具,直接将古汉语对应的所有现代汉语义项传入有道词典的网络接口,获取了其对应英文的所有义项。
其次,为了提高实验消歧效果,本文在段落级语料库的基础上引入了汉英平行语料库的思想。根据Gale[2]的对齐算法构建了实验所用的先秦典籍汉英对照双语句子级语料库。其中,汉英平行语料库的平行处理是指在处理一种语言时,尽量使用另一种语言来消除语言的歧义。,也是目前机器翻译领域应用较多的方法。本文采用汉英平行语料库进行义项抽取实验,能为义项抽取的进行提供一定的指导。
在语料库的建立上,选用先秦典籍中的《墨家》、《孟子》、《论语》的段落级对齐汉英对照语料作为实验语料,陈小荷[3]的研究指出此三本都是属于政论类的典籍,其篇幅分别达到7.94万字、3.54万字、1.59万字,共十三余万字,具有一定的代表性。
经过本文的研究,能到用于抽取先秦词汇义项的模板,以及提取相关模板和规范的流程,可以在今后的古汉语全文词义标注的起步阶段提供高质量的初始结果,可以为英汉平行语料库建立中的句子级、词汇级对齐提供指导,为古汉语英语双语检索系统的建立提供帮助。
本文后续部分结构如下,第二节介绍了词汇义项自动抽取的相关研究和平行双语语料库建立的相关研究;第三节对本文使用的基于词典的词汇自动抽取的相关原理进行了描述;第四部分对实验设计的相关原则进行了分析,并对实验结果进行了分析,最后完成了实验相关应用的实现;第五部分给出了本文的结论及后续的研究工作和展望。
二、相关研究
(一)自动抽取技术综述
自动词提取的研究已有20年的历史。20世纪90年代,国外出现了一些自动字词提取系统,而国内的研究主要集中在过去10年,主要是在国外研究的基础上对现有的方法进行改进。[4]。
在初始词的自动提取中,经常使用基于语言知识的方法。随着基于统计的自然语言处理技术的兴起,各种统计策略逐渐引入到词汇义项抽取系统中。然而,随着利用隐马尔可夫模型(HMM)、条件随机场(CRF)等机器学习算法对词性进行标记、命名实体识别等领域的使用,结合机器学习算法的方法也被引入到语词的抽取研究中[5]。目前,三种词汇自动抽取的方法被广泛使用,分别是:基于规则的方法、基于统计的方法和多种方法相结合的方法[4]。如图1所示。
/
图1 自动抽取的主要方法
综上,多种方法相结合能够达到互为补充的效果,以各种方法的优势,来弥补其他单一方法的缺点,在研究中取得了较好的结果?
(二)语料库相关研究综述
语料库是收集特定语言的原始语料和其被翻译为另外一种对齐语料的语料库[6]。对照语料库是把包括原始语料文本及其对齐翻译语料的两种或更多的语言作为一些成份来进行研究[2],因此,只要两种语言的篇章文本级语料库达到翻译对齐的水平,就可以称之为平行语料库。汉英语料库也属于平行语料库的范畴,它是指涉及汉语和英语的平行语料库。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/495.html