cdtb语料库的篇章关系标注研究(源码)【字数:10517】
宏观篇章关系作为自然语言处理方向的重点和难点,已经成为当前最为活跃的研究内容之一。目前,英文方面对于篇章关系的研究较为成熟,中文方面篇章关系起步较晚,宏观篇章关系暂时研究较少,因此研究宏观篇章关系具有较为重要的意义和作用。本文主要研究宏观篇章关系的表示体系、标注方式与方法、构建标注平台。具体内容包括以下三个方面第一,本文针对中文语言特点,充分结合RST、PDTB等国内外经典语料库的优点,提出适用于中文的宏观篇章关系表示体系,把篇章分为段落主题、段落关系、篇章主题三个层次。本文针对段落关系和宏观表示做了深入的研究。第二,本文提出了宏观篇章关系的标注的具体方式和方法,并对标注格式作出规范。该方法采用人工标注的标注方式,自顶向下与自下而上相结合进行结构树构建,并对篇章主题、段落主次及关系、段落主题等方面进行了相关的标注。第三,本文构建了宏观篇章关系的标注平台,为标注人员提供了三种标注模式,加快了篇章段落关系结构树的生成速度。实验证明,该标注平台能够显著增加标注人员标注速度,提高标注效率。本文针对宏观篇章关系进行了相关的研究和探索,其宏观篇章关系表示体系和标注方法及标注平台,对于今后宏观篇章关系的进一步研究起到了促进作用。关键词宏观篇章关系;标注方法;标注平台;可视化
目录
第一章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.2.1 国外研究 1
1.2.2 国内研究 2
1.2.3 存在的问题 3
1.3 本文主要研究内容 3
第二章 宏观篇章关系表示体系构建及组成 4
2.1 构建基于CDTB的宏观篇章关系表示体系 4
2.2宏观篇章关系表示体系的组成 5
2.2.1 篇章主题 5
2.2.2 段落关系 6
2.2.3 段落主题 7
第三章 标注方式与方法的研究与提出 8
3.1 宏观篇章关系标注方式 8
3.2 标注内容与方法 8
3.3 标注格式 9
第四章 宏观篇章关系标注平台建设 12
4.1 系统总体架构 12
4.2 功能模块 13
*好棒文|www.hbsrm.com +Q: @351916072@
/> 4.2.1 输入系统 13
4.2.2 标注系统 14
4.2.3 输出系统 17
4.3 部分重要功能实现 18
4.3.1 预处理相关方法 18
4.3.2 可视化生成篇章结构树 19
4.3.3 二维切分递归关系树 19
4.4 系统标注实例 20
第五章 宏观篇章关系优点及局限性分析 26
5.1 表示体系及标注方法的优点 26
5.2 标注平台的优势和不足 26
5.3 篇章关系研究的设想与发展 27
结 论 28
致 谢 29
参 考 文 献 30
第一章 绪论
1.1 研究背景及意义
随着人工智能时代的来临,人们对于计算机的依赖程度日益加深。如何进行更为友好自然的人机交互,是目前计算机发展的方向之一。微软的Cortana、苹果公司的Siri越来越走进人们的生活,如何使计算机更懂用户,更加精准的匹配用户需求,为用户实时解决各种问题,是自然语言处理所面临的问题。人与计算机使用自然语言进行交互是未来人工智能发展的方向,因此自然语言处理成为如今人工智能时代的重点和难点。
篇章是继字、词、句之后的自然语言文本分析颗粒度,对篇章进行分析可以探索出篇章原有的内在结构,深度理解文本单元间的语义关系[]。对文本单元进行上下文分析和处理,从而挖掘出文本内部丰富的结构化信息,这对自然语言理解和语言生成有着至关重要的作用。近几年来,篇章分析在自然语言处理、计算语言学及人文社科研究领域得到了前所未有的发展,是目前自然语言处理研究领域中最活跃的研究方向之一。
篇章关系是篇章分析的一个重要环节,研究篇章关系有助于构建篇章结构,有利于理解篇章的中心主题、核心重点、展开思路、论据支撑作用等。研究篇章关系能够促进理解篇章的主要思想及篇章的整体行文结构,对于理解篇章整体语义连贯及把握篇章内各部分之间的关联具有积极的作用。研究宏观篇章关系不仅能够对于微观的篇章关系有指导性作用,而且对于自然语言处理的上层应用,如自动文摘、主题抽取、问答系统等提供有力的支持和帮助。
篇章关系的标注则是对篇章关系进行分析的基础和重要组成部分,是研究篇章关系的第一步。篇章关系表示体系是整个篇章关系研究极其重要的基础环节,对于篇章关系标注具有理论支撑的作用。对标注的方式方法和标注平台的研究和可行性探讨,直接影响到篇章关系研究的质量和前景。
1.2 国内外研究现状
1.2.1 国外研究
文献[]的篇章宏观结构理论系统的描述了微观结构与宏观结构的层次关系,它指出微观结构是篇章中的一个句子以及两个按顺序连续排列的句子的结构,而宏观结构与微观结构相对,是篇章整体上的高层次的结构,其基本单元也被扩充到段落及章节等,其中篇章的主题思想,能够体现篇章的主要思想及其脉络。宏观篇章关系在一定程度上体现了篇章整体语义连贯,显示了篇章内各部分之间的关联。
文献[]把Halliday功能语法理论的主位概念投射到篇章分析层面,指出了篇章的每个段落往往有一个“主题”,从篇章的角度看,这个主题即段落的“超主位”,超主位之上还有“宏观主位”,在层次上更近一层,宏观主位一般是篇章的主题句,或者主题,能够代表篇章的主要思想。超主位和宏观主位,即宏观层面的主要信息,主要功能是帮助读者预测篇章的主题、目录和段落内容。
文献[]中对于篇章分析则把篇章分析的重心放在了句子内部和句子之间的关系研究,并且结合在这两个部分之间的动态条件随机场,对于篇章结构进行自动构建。该理论在宏观上结合了文献[]中构建的微观理论的关系类型、关系重心确定方法等,借鉴了篇章修辞理论(RST)模型,把篇章结构描述成层次依赖模型,即在局部形成一个文本域,再与前后文本域进行联系。但是对于篇章级段落间关系模型,它并未作详细描述。
1.2.2 国内研究
相对于英语篇章分析技术起步早、基础扎实、技术成熟等特点,汉语篇章分析技术起步较晚,无论是基础理论研究还是资源建设等方面大多数是建立在英语篇章结构分析的基础上。文献[],文献[],文献[]等对汉语篇章研究进行了较深入的分析,它们指出当前汉语篇章理论尚未形成体系,理论并不能很好的指导实践,传统的句群理论和复句理论均从汉语语法方面的进行论述,并未在篇章结构关系上进行探讨。文献[]指出传统的句群理论可以借鉴英文RST的相关理论,加以改造后变成切实可行的汉语篇章结构分析理论,因为句群理论无论在研究对象,还是研究内容与方法上都和RST有互通之处。
目录
第一章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.2.1 国外研究 1
1.2.2 国内研究 2
1.2.3 存在的问题 3
1.3 本文主要研究内容 3
第二章 宏观篇章关系表示体系构建及组成 4
2.1 构建基于CDTB的宏观篇章关系表示体系 4
2.2宏观篇章关系表示体系的组成 5
2.2.1 篇章主题 5
2.2.2 段落关系 6
2.2.3 段落主题 7
第三章 标注方式与方法的研究与提出 8
3.1 宏观篇章关系标注方式 8
3.2 标注内容与方法 8
3.3 标注格式 9
第四章 宏观篇章关系标注平台建设 12
4.1 系统总体架构 12
4.2 功能模块 13
*好棒文|www.hbsrm.com +Q: @351916072@
/> 4.2.1 输入系统 13
4.2.2 标注系统 14
4.2.3 输出系统 17
4.3 部分重要功能实现 18
4.3.1 预处理相关方法 18
4.3.2 可视化生成篇章结构树 19
4.3.3 二维切分递归关系树 19
4.4 系统标注实例 20
第五章 宏观篇章关系优点及局限性分析 26
5.1 表示体系及标注方法的优点 26
5.2 标注平台的优势和不足 26
5.3 篇章关系研究的设想与发展 27
结 论 28
致 谢 29
参 考 文 献 30
第一章 绪论
1.1 研究背景及意义
随着人工智能时代的来临,人们对于计算机的依赖程度日益加深。如何进行更为友好自然的人机交互,是目前计算机发展的方向之一。微软的Cortana、苹果公司的Siri越来越走进人们的生活,如何使计算机更懂用户,更加精准的匹配用户需求,为用户实时解决各种问题,是自然语言处理所面临的问题。人与计算机使用自然语言进行交互是未来人工智能发展的方向,因此自然语言处理成为如今人工智能时代的重点和难点。
篇章是继字、词、句之后的自然语言文本分析颗粒度,对篇章进行分析可以探索出篇章原有的内在结构,深度理解文本单元间的语义关系[]。对文本单元进行上下文分析和处理,从而挖掘出文本内部丰富的结构化信息,这对自然语言理解和语言生成有着至关重要的作用。近几年来,篇章分析在自然语言处理、计算语言学及人文社科研究领域得到了前所未有的发展,是目前自然语言处理研究领域中最活跃的研究方向之一。
篇章关系是篇章分析的一个重要环节,研究篇章关系有助于构建篇章结构,有利于理解篇章的中心主题、核心重点、展开思路、论据支撑作用等。研究篇章关系能够促进理解篇章的主要思想及篇章的整体行文结构,对于理解篇章整体语义连贯及把握篇章内各部分之间的关联具有积极的作用。研究宏观篇章关系不仅能够对于微观的篇章关系有指导性作用,而且对于自然语言处理的上层应用,如自动文摘、主题抽取、问答系统等提供有力的支持和帮助。
篇章关系的标注则是对篇章关系进行分析的基础和重要组成部分,是研究篇章关系的第一步。篇章关系表示体系是整个篇章关系研究极其重要的基础环节,对于篇章关系标注具有理论支撑的作用。对标注的方式方法和标注平台的研究和可行性探讨,直接影响到篇章关系研究的质量和前景。
1.2 国内外研究现状
1.2.1 国外研究
文献[]的篇章宏观结构理论系统的描述了微观结构与宏观结构的层次关系,它指出微观结构是篇章中的一个句子以及两个按顺序连续排列的句子的结构,而宏观结构与微观结构相对,是篇章整体上的高层次的结构,其基本单元也被扩充到段落及章节等,其中篇章的主题思想,能够体现篇章的主要思想及其脉络。宏观篇章关系在一定程度上体现了篇章整体语义连贯,显示了篇章内各部分之间的关联。
文献[]把Halliday功能语法理论的主位概念投射到篇章分析层面,指出了篇章的每个段落往往有一个“主题”,从篇章的角度看,这个主题即段落的“超主位”,超主位之上还有“宏观主位”,在层次上更近一层,宏观主位一般是篇章的主题句,或者主题,能够代表篇章的主要思想。超主位和宏观主位,即宏观层面的主要信息,主要功能是帮助读者预测篇章的主题、目录和段落内容。
文献[]中对于篇章分析则把篇章分析的重心放在了句子内部和句子之间的关系研究,并且结合在这两个部分之间的动态条件随机场,对于篇章结构进行自动构建。该理论在宏观上结合了文献[]中构建的微观理论的关系类型、关系重心确定方法等,借鉴了篇章修辞理论(RST)模型,把篇章结构描述成层次依赖模型,即在局部形成一个文本域,再与前后文本域进行联系。但是对于篇章级段落间关系模型,它并未作详细描述。
1.2.2 国内研究
相对于英语篇章分析技术起步早、基础扎实、技术成熟等特点,汉语篇章分析技术起步较晚,无论是基础理论研究还是资源建设等方面大多数是建立在英语篇章结构分析的基础上。文献[],文献[],文献[]等对汉语篇章研究进行了较深入的分析,它们指出当前汉语篇章理论尚未形成体系,理论并不能很好的指导实践,传统的句群理论和复句理论均从汉语语法方面的进行论述,并未在篇章结构关系上进行探讨。文献[]指出传统的句群理论可以借鉴英文RST的相关理论,加以改造后变成切实可行的汉语篇章结构分析理论,因为句群理论无论在研究对象,还是研究内容与方法上都和RST有互通之处。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/767.html