web语料中的介词搭配获取方法研究
摘 要摘 要 词汇是语言组成的基本单位。但是,对于语言的研究往往是从句子成分与搭配开始的。搭配是语言学的重要组成部分,因此越来越多的研究人员将重点放在了对词汇搭配的研究上。 长期以来,很多的专家对搭配进行过不同的研究。有的人在句法学的方面进行钻研,也有一部分人从词汇编纂学或者语用学的方向来开展工作。本文试图从同义词词林与Web语料的角度对搭配进行介词搭配获取,首先定义介词的表示方法,构建一个介词搭配种子集合,然后基于同义词词典对介词搭配进行扩充,实验表明,基于种子和同义词词林的扩充方法是非常有效的。本文提出第二种搭配自动获取方法:首先利用网络爬虫获取Web语料,然后对Web语料进行统计,统计五元组模型,然后基于五元组模型来获取介词搭配,实验表明基于统计的搭配自动获取能有效的获取介词搭配。本文获取的介词搭配能有效的应用于汉语文本纠错等自然语言理解应用中。关键词:介词搭配;Web语料;同义词词林随着语料库的发展,20世纪90年代,基于学习者语料库中的介词对比分析成为了语言研究的另一种途径。这种基于语料库中的介词对比分析方法能为语言教学提供非常宝贵的资料和数据。关键词索引和词语索引成为了研究语料库最基本的方法。Keyword: The preposition collocation; Web corpora; Synonym word 目 录
第一章 绪论 1
1.1 课题研究背景和意义 1
1.2 国内外研究现状 2
1.3 相关技术介绍 3
1.3.1 J2SE简介 3
1.3.2 HttpClient简介 3
1.4 本课题主要研究内容 4
1.5 论文的组织结构 4
1.6 小结 5
第二章 基于种子的介词搭配扩充 6
2.1 介词搭配介绍 6
2.2 同义词词林的介绍 6
2.2.1 同义词词林的分类方法 7
2.2.2 同义词词林的编码方法 7
2.3 基于种子与同义词词林的搭配扩充算法 8
2.3.1 数据结构 8
2.3.2 算法设计思路 10
2.4 实验结果 11
2
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
扩充 6
2.1 介词搭配介绍 6
2.2 同义词词林的介绍 6
2.2.1 同义词词林的分类方法 7
2.2.2 同义词词林的编码方法 7
2.3 基于种子与同义词词林的搭配扩充算法 8
2.3.1 数据结构 8
2.3.2 算法设计思路 10
2.4 实验结果 11
2.5 小结 13
第三章 基于Web语料的介词搭配获取 14
3.1 Web语料获取 14
3.1.1 网络爬虫简介 14
3.1.2 网页搜索策略 15
3.1.3 简单的网络爬虫 15
3.2 Web语料统计 16
3.2.1 去掉html标签 16
3.2.2 分词 17
3.3 基于五元组模型的搭配获取算法 19
3.3.1 数据结构 19
3.3.2 算法设计思路 21
3.4 实验结果 22
3.5 小结 23
第四章 总结与展望 24
4.1 总结 24
4.2 下一步的工作 24
致 谢 25
参 考 文 献 26
第一章 绪论
1.1 课题研究背景和意义
语言学中的搭配是一种单词与单词之间相互作用的结果,是我们进行语法和句法分析中的重要环节,同时更是我们获取知识的重要途径[1]。
由词语构成的搭配是语言学中特别重要的内容。从使用习惯上来看,词类的搭配在日常生活中出现的频率较高。从规律性来说,它们的规则又无法被准确的描述。如果搭建一个针对单词搭配的资料库,用来收集来自文本资料中大量被筛选出来的搭配,这样就能够给自然语言处理跟语言学教学供应有价值的知识来源。
汉语中的介词是动词虚化演变而来的结果,没有实际意义。它作为一种表示词与词、词与句之间的关系的虚词,在句子中一般不能单独作句子成分,必须要与其他实词或短语进行搭配,构成介词短语才能用来修饰、补充其他成分。而且介词是语言中比较活跃的此类,它的搭配能力极强,且这样的搭配没有统一的规律,形式也多样,各种各样的意思都能够通过它来得到表示。介词后面往往都会搭配有名词代词或者等同于名词作用的其他词类,短语或者从句来当作它的宾语[2]。
介词与介词型结构一直是语言学中的关键性研究问题之一。对介词的研究,就其本身而言可以进行单独的研究,然而更迫切的是对语句中介词以及相关成分进行的研究,其中最重要的就是与名词的关系。搭建一个介词搭配的资料库,无疑能够给介词和名词的组合关系提供重要的研究数据。
只有筛选出有效的搭配,才能高效地进行语法以及句法分析。更重要的是,介词搭配作为语句组成的核心关键,往往是一个语句的支撑部分。缺少了介词搭配的句子,可能只是一个空架子,所以介词搭配的重要性不言而喻。如果我们可以正确高效地区分出介词搭配,那么对语法以及句法的分析研究难度对大大降低。
1.2 国内外研究现状
语料库是由大量真实有效的自然文本资源组成的资料库,它可以避免因为数据量不够而导致的研究结果缺少说服力以及准确性的问题。
20世纪60年代初,美国布朗大学建立了第一个大型语料库BROWN,它收集了500个连贯的英语书面语,每个文本超过2000词,整个语料库约1014300词。它是第一个机读语料库,也是第一个平衡语料库,用来研究当代美国英语。尽管用现代计算机理论及技术的水平来看,它的资料以及平衡方式比较粗糙,但是它却一直都是英语平衡语料库的标准,甚至到了八十年代新构建的英语平衡语料库如LOB和LondonLund,都还按照布朗语料库的架构搭建。
在计算机的操作下,语料库中大量的介词数据可以被加工、提取、分析,并与母语和目的语进行对比。语料库也为词汇研究提供了有效的方法,使得单词频率的分布、介词搭配研究有了第一手的“自然数据”[3]。
随着语料库的发展,20世纪90年代,基于学习者语料库中的介词对比分析成为了语言研究的另一种途径。这种基于语料库中的介词对比分析方法能为语言教学提供非常宝贵的资料和数据。关键词索引和词语索引成为了研究语料库最基本的方法。
国内基于语料库的词汇的研究近年来开始得到重视。在经过了初期的不精致地分析所有的搭配后,有关汉语的搭配的提取开始走向分类别地探究多种类型的搭配的道路。
在《汉语搭配定量分析初探》中,孙茂松认为将强度、离散度和尖峰三类统计指标作为搭配定量评估体系的组成部分是科学且有效的。随后依据这种体系实现了相应的搭配判断算法[4]。在《从标准语料库中归纳语法规则:“V+N”序列实验分析》中,孙宏林完成了规则与统计相结合的方法,即通过大规模标注语料库中归纳算法规则,从而筛选动宾搭配[5]。在《动宾组合的自动获取与标注》中,陈小荷通过使用统计方法,从语料中自动获取动宾组合实例,并且把没有经过校对的搭配数据用于动宾结构的自动标注,来检测自动获取的数据是否有意义[6]。
1.3 相关技术介绍
1.3.1 J2SE简介
Java2平台包括:标准版(J2SE)、企业版(J2EE)、微缩版(J2ME)三个版本。J2SE是Java2的标准版,是Java的核心与基础,所以它的重要性不言而喻。
J2SE的特性较多,在这里简单介绍下以下几个特点。
易于开发性:一些新的Java语言变化包含易于开发性主题。这些变化包括泛型、元
第一章 绪论 1
1.1 课题研究背景和意义 1
1.2 国内外研究现状 2
1.3 相关技术介绍 3
1.3.1 J2SE简介 3
1.3.2 HttpClient简介 3
1.4 本课题主要研究内容 4
1.5 论文的组织结构 4
1.6 小结 5
第二章 基于种子的介词搭配扩充 6
2.1 介词搭配介绍 6
2.2 同义词词林的介绍 6
2.2.1 同义词词林的分类方法 7
2.2.2 同义词词林的编码方法 7
2.3 基于种子与同义词词林的搭配扩充算法 8
2.3.1 数据结构 8
2.3.2 算法设计思路 10
2.4 实验结果 11
2
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
扩充 6
2.1 介词搭配介绍 6
2.2 同义词词林的介绍 6
2.2.1 同义词词林的分类方法 7
2.2.2 同义词词林的编码方法 7
2.3 基于种子与同义词词林的搭配扩充算法 8
2.3.1 数据结构 8
2.3.2 算法设计思路 10
2.4 实验结果 11
2.5 小结 13
第三章 基于Web语料的介词搭配获取 14
3.1 Web语料获取 14
3.1.1 网络爬虫简介 14
3.1.2 网页搜索策略 15
3.1.3 简单的网络爬虫 15
3.2 Web语料统计 16
3.2.1 去掉html标签 16
3.2.2 分词 17
3.3 基于五元组模型的搭配获取算法 19
3.3.1 数据结构 19
3.3.2 算法设计思路 21
3.4 实验结果 22
3.5 小结 23
第四章 总结与展望 24
4.1 总结 24
4.2 下一步的工作 24
致 谢 25
参 考 文 献 26
第一章 绪论
1.1 课题研究背景和意义
语言学中的搭配是一种单词与单词之间相互作用的结果,是我们进行语法和句法分析中的重要环节,同时更是我们获取知识的重要途径[1]。
由词语构成的搭配是语言学中特别重要的内容。从使用习惯上来看,词类的搭配在日常生活中出现的频率较高。从规律性来说,它们的规则又无法被准确的描述。如果搭建一个针对单词搭配的资料库,用来收集来自文本资料中大量被筛选出来的搭配,这样就能够给自然语言处理跟语言学教学供应有价值的知识来源。
汉语中的介词是动词虚化演变而来的结果,没有实际意义。它作为一种表示词与词、词与句之间的关系的虚词,在句子中一般不能单独作句子成分,必须要与其他实词或短语进行搭配,构成介词短语才能用来修饰、补充其他成分。而且介词是语言中比较活跃的此类,它的搭配能力极强,且这样的搭配没有统一的规律,形式也多样,各种各样的意思都能够通过它来得到表示。介词后面往往都会搭配有名词代词或者等同于名词作用的其他词类,短语或者从句来当作它的宾语[2]。
介词与介词型结构一直是语言学中的关键性研究问题之一。对介词的研究,就其本身而言可以进行单独的研究,然而更迫切的是对语句中介词以及相关成分进行的研究,其中最重要的就是与名词的关系。搭建一个介词搭配的资料库,无疑能够给介词和名词的组合关系提供重要的研究数据。
只有筛选出有效的搭配,才能高效地进行语法以及句法分析。更重要的是,介词搭配作为语句组成的核心关键,往往是一个语句的支撑部分。缺少了介词搭配的句子,可能只是一个空架子,所以介词搭配的重要性不言而喻。如果我们可以正确高效地区分出介词搭配,那么对语法以及句法的分析研究难度对大大降低。
1.2 国内外研究现状
语料库是由大量真实有效的自然文本资源组成的资料库,它可以避免因为数据量不够而导致的研究结果缺少说服力以及准确性的问题。
20世纪60年代初,美国布朗大学建立了第一个大型语料库BROWN,它收集了500个连贯的英语书面语,每个文本超过2000词,整个语料库约1014300词。它是第一个机读语料库,也是第一个平衡语料库,用来研究当代美国英语。尽管用现代计算机理论及技术的水平来看,它的资料以及平衡方式比较粗糙,但是它却一直都是英语平衡语料库的标准,甚至到了八十年代新构建的英语平衡语料库如LOB和LondonLund,都还按照布朗语料库的架构搭建。
在计算机的操作下,语料库中大量的介词数据可以被加工、提取、分析,并与母语和目的语进行对比。语料库也为词汇研究提供了有效的方法,使得单词频率的分布、介词搭配研究有了第一手的“自然数据”[3]。
随着语料库的发展,20世纪90年代,基于学习者语料库中的介词对比分析成为了语言研究的另一种途径。这种基于语料库中的介词对比分析方法能为语言教学提供非常宝贵的资料和数据。关键词索引和词语索引成为了研究语料库最基本的方法。
国内基于语料库的词汇的研究近年来开始得到重视。在经过了初期的不精致地分析所有的搭配后,有关汉语的搭配的提取开始走向分类别地探究多种类型的搭配的道路。
在《汉语搭配定量分析初探》中,孙茂松认为将强度、离散度和尖峰三类统计指标作为搭配定量评估体系的组成部分是科学且有效的。随后依据这种体系实现了相应的搭配判断算法[4]。在《从标准语料库中归纳语法规则:“V+N”序列实验分析》中,孙宏林完成了规则与统计相结合的方法,即通过大规模标注语料库中归纳算法规则,从而筛选动宾搭配[5]。在《动宾组合的自动获取与标注》中,陈小荷通过使用统计方法,从语料中自动获取动宾组合实例,并且把没有经过校对的搭配数据用于动宾结构的自动标注,来检测自动获取的数据是否有意义[6]。
1.3 相关技术介绍
1.3.1 J2SE简介
Java2平台包括:标准版(J2SE)、企业版(J2EE)、微缩版(J2ME)三个版本。J2SE是Java2的标准版,是Java的核心与基础,所以它的重要性不言而喻。
J2SE的特性较多,在这里简单介绍下以下几个特点。
易于开发性:一些新的Java语言变化包含易于开发性主题。这些变化包括泛型、元
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1445.html