面向故事生成的故事标注系统
摘 要摘 要随着人工智能和自然语言处理技术的飞速发展,语义识别和故事自动生成在很多领域有着广阔的发展前景。本文介绍了故事生成和语义识别的相关概念,由此引申出故事生成的辅助系统故事标注,在故事标注的基础上,结合语义识别的相关方法,用以识别故事的核心内容,包括基于词的基本属性进行倾向识别、基于特定文本属性的分析识别方法、基于上下文信息的累积识别方法等。因为语义识别的复杂性,本文借助本体的相关概念,构筑故事标注的本体模型,用以匹配故事世界。在故事本体的基础上,原本极为繁杂枯燥的故事标注,会成为一件简单高效的事情。实验表明,本文方法在语义识别,特别是基于故事进行特定语义分析和故事标注上效果更好。在借助本体的可行性研究实验上,已经可以得出结论,本文研究方案可为更大粒度的语义识别以及文本分析打好基础,具有一定的实用价值。本系统使用Visual studio.net 2010作为系统开发环境,并采用windows 窗体作为前台开发工具,使用C#语言,以SQL Server 2008为后台数据库的开发体系结构。实现了故事载入、故事分割、故事标注,以及特定于计算机识别的xml生成等功能。关键词: 语义识别 故事生成 故事标注目录
第一章 绪论 1
1.1 系统研究背景 1
1.2 系统研究意义 1
1.3 国内外研究现状 2
1.4 本课题主要研究内容 3
第二章 故事语义知识标注规范 5
2.1 本体(ontology)的定义及其建模元语 5
2.2 本体的研究和应用 6
2.2.1 本体的理论研究 6
2.2.2 本体在计算机科学中的应用 7
2.3 系统本体定义以及标注规范 8
2.3.1系统本体设计 8
2.3.2标注规范 10
第三章 系统需求分析 12
3.1 系统功能分析 12
3.1.1 故事文件上传预处理 12
3.1.2 标注文件的管理 13
3.2 系统本体分析 13
3.2.1 创建本体 13
3.2.2 识别本体 13
3.3 系统数据流图 14
*好棒文|www.hbsrm.com +Q: ¥3^5`1^9`1^6^0`7^2$
/> 2.3.2标注规范 10
第三章 系统需求分析 12
3.1 系统功能分析 12
3.1.1 故事文件上传预处理 12
3.1.2 标注文件的管理 13
3.2 系统本体分析 13
3.2.1 创建本体 13
3.2.2 识别本体 13
3.3 系统数据流图 14
3.4 数据字典 15
3.5 系统概念模型 16
3.6 系统功能操作描述 17
第四章 系统设计 19
4.1 系统功能结构 19
4.2 系统架构 20
4.2.1 系统架构设计思想 20
4.2.2 系统架构的实现 21
4.3 数据库设计 22
4.3.1 相关逻辑设计 22
4.3.2 数据库表结构设计 22
第五章 详细设计 26
5.1 本体的详细设计 26
5.2 标注故事界面的设计 26
5.3 业务逻辑层的设计 28
5.4 表示层的设计 29
第六章 系统实现 31
6.1 本体库的实现 31
6.2 故事标注的实现 32
第七章 系统测试分析报告 35
7.1 功能测试计划 35
7.2 测试用例 35
7.2.1 本体测试用例 35
7.2.2 故事标注测试用例 36
7.3 测试结果 36
7.3.1 本体创建测试结果 36
7.3.2 故事标注测试结果 38
7.4 测试结论 38
结 论 39
致 谢 40
参 考 文 献 41
绪论
系统研究背景
21世纪,计算机科学与技术和我们日常生活牢牢结合在一起,其强大的处理能力以及各种功能,已经用于方方面面,很多人体会甚深。语义识别[1]是计算机研究的一部分,它在人工智能以及故事生成上有不一般的意义。本文研究的课题——面向故事生成的故事标注系统,它是语义识别的基础部分。其主要研究范围,针对叙事文本,通过科学高效的划分,转化为计算机可以识别的语言,实现语义识别和人工智能的一部分。
叙事在我们生活中无处不在,日常书书籍、报刊杂志、小说故事等等皆是属于叙事范畴。它是将人们日常生活中具有一定意义的事件经历组织成一定叙事文本,作为交流感情、传递信息、娱乐生活以及学习教育的一种至关重要的手段。本文讨论的面向故事生成的故事标注系统,针对的便是叙事文本,进行特殊标注。使之原本用于人类阅读的叙事文本,能够让计算机识别。当然,本文讨论的叙事文本,指的是具有一定情节的故事。所谓的故事标注,通俗说来,便是对故事进行一些分析,提炼出其内的主要意思,比如情节人物以及之间复杂关系等。在这里,我们定义了一套规范,将故事整个拆分,划分为数个模块。基于这些模块,转化为特定的xml文档,以便计算机识别。这份文档在语义识别上也有特殊意义,只要稍加变动,更改规范,可以在更广粒度上用于人工智能。它有助于简化人类的思维和认知,以帮助计算机识别,从而实现人工智能在语义识别上的某些难题。
系统研究意义
随着科学技术的发展,人工智能和虚拟现实已经逐步走入我们的生活,但是在语义识别上,仍然还有很多重要问题没有突破。具体而言,故事生成这一块的逆向过程,故事标注上鲜有人涉及,乏善可陈。本系统便是着重于故事生成的故事标注,弥补内这一领域上的一些空白。在人工智能以及语义识别上,有很重要的作用,对于虚拟现实,也有巨大的影响。
在对大量文献,以及故事生成领域的著作研究和发掘过程中,我们不难得出如下结论:故事生成是一个涉及广泛的庞大工程,故事内容包罗万象,从古典小说,到当代文学,从儿童故事到奇幻小说,这里涵盖天文地理,无所不包计算机科学、社会学、心理学、民间风俗等等[2],种种繁杂领域皆是牵涉其中。这对于故事生成的初始样本要求甚大,靠人工定义样本,无异于杯水车薪,需要辅助系统,故事标注系统来辅助实现。故事标注取材于现有故事,以及一系列叙事文本,可以说保罗万象。只要通过合理科学的方法将其解析起来,计算机就可以识别,并立即用于故事生成领域。故事标注系统,弥补了故事生成的先天不足和局限,对于故事生成和语义识别的作用甚大,对于人工智能,也有非常重要的意义。
国内外研究现状
上世纪七十年代,美国耶鲁大学的Schank和Abelson独领风骚,提出了叙事文本的可计算模型[3],其理解是基于使用目标、规划和脚本研究叙事文本。世界上第一个自动故事生成系统TaleSpin早在1976年就已经诞生,基于这一系统,生出很多妙不可言的故事世界,其开发者美国加州大学计算机与信息科学专家Meehan,也因此成为故事自动生成领域的权威泰斗。在该系统中,Meehan别出心裁,在给定的故事中,每一个人物都有自己的目标以及对于各等事物的态度。在生成的故事世界当中,其内人物是鲜活的,他们有自己的胸襟抱负,有自己的爱恨情仇,因此会作出各种尝试,在这些尝试当中,会产生种种变化,从而生成一个广阔而精彩的故事世界。1990连,美国麻省理工大学媒体实验室组织了一个讨论班,这一讨论班起初不引人注意,但是随后却是有此产生了叙事智能的概念。后来在这次会议为首二人Davis和Traverse的采访当中,我们才得知,那次会议起初不过就是讨论些文学理论,间接涉及和计算机有关的问题罢了,说来也是一段佳话。到了本世纪,叙事智能以及自动化故事生成得到了很多计算机爱好者的钟青,产生了很多有趣的故事标注系统,有些已经得到了推广应用。这些故事系统功能上最后都大体相近,但是其方式和实现手法以及其中核心思想却是
第一章 绪论 1
1.1 系统研究背景 1
1.2 系统研究意义 1
1.3 国内外研究现状 2
1.4 本课题主要研究内容 3
第二章 故事语义知识标注规范 5
2.1 本体(ontology)的定义及其建模元语 5
2.2 本体的研究和应用 6
2.2.1 本体的理论研究 6
2.2.2 本体在计算机科学中的应用 7
2.3 系统本体定义以及标注规范 8
2.3.1系统本体设计 8
2.3.2标注规范 10
第三章 系统需求分析 12
3.1 系统功能分析 12
3.1.1 故事文件上传预处理 12
3.1.2 标注文件的管理 13
3.2 系统本体分析 13
3.2.1 创建本体 13
3.2.2 识别本体 13
3.3 系统数据流图 14
*好棒文|www.hbsrm.com +Q: ¥3^5`1^9`1^6^0`7^2$
/> 2.3.2标注规范 10
第三章 系统需求分析 12
3.1 系统功能分析 12
3.1.1 故事文件上传预处理 12
3.1.2 标注文件的管理 13
3.2 系统本体分析 13
3.2.1 创建本体 13
3.2.2 识别本体 13
3.3 系统数据流图 14
3.4 数据字典 15
3.5 系统概念模型 16
3.6 系统功能操作描述 17
第四章 系统设计 19
4.1 系统功能结构 19
4.2 系统架构 20
4.2.1 系统架构设计思想 20
4.2.2 系统架构的实现 21
4.3 数据库设计 22
4.3.1 相关逻辑设计 22
4.3.2 数据库表结构设计 22
第五章 详细设计 26
5.1 本体的详细设计 26
5.2 标注故事界面的设计 26
5.3 业务逻辑层的设计 28
5.4 表示层的设计 29
第六章 系统实现 31
6.1 本体库的实现 31
6.2 故事标注的实现 32
第七章 系统测试分析报告 35
7.1 功能测试计划 35
7.2 测试用例 35
7.2.1 本体测试用例 35
7.2.2 故事标注测试用例 36
7.3 测试结果 36
7.3.1 本体创建测试结果 36
7.3.2 故事标注测试结果 38
7.4 测试结论 38
结 论 39
致 谢 40
参 考 文 献 41
绪论
系统研究背景
21世纪,计算机科学与技术和我们日常生活牢牢结合在一起,其强大的处理能力以及各种功能,已经用于方方面面,很多人体会甚深。语义识别[1]是计算机研究的一部分,它在人工智能以及故事生成上有不一般的意义。本文研究的课题——面向故事生成的故事标注系统,它是语义识别的基础部分。其主要研究范围,针对叙事文本,通过科学高效的划分,转化为计算机可以识别的语言,实现语义识别和人工智能的一部分。
叙事在我们生活中无处不在,日常书书籍、报刊杂志、小说故事等等皆是属于叙事范畴。它是将人们日常生活中具有一定意义的事件经历组织成一定叙事文本,作为交流感情、传递信息、娱乐生活以及学习教育的一种至关重要的手段。本文讨论的面向故事生成的故事标注系统,针对的便是叙事文本,进行特殊标注。使之原本用于人类阅读的叙事文本,能够让计算机识别。当然,本文讨论的叙事文本,指的是具有一定情节的故事。所谓的故事标注,通俗说来,便是对故事进行一些分析,提炼出其内的主要意思,比如情节人物以及之间复杂关系等。在这里,我们定义了一套规范,将故事整个拆分,划分为数个模块。基于这些模块,转化为特定的xml文档,以便计算机识别。这份文档在语义识别上也有特殊意义,只要稍加变动,更改规范,可以在更广粒度上用于人工智能。它有助于简化人类的思维和认知,以帮助计算机识别,从而实现人工智能在语义识别上的某些难题。
系统研究意义
随着科学技术的发展,人工智能和虚拟现实已经逐步走入我们的生活,但是在语义识别上,仍然还有很多重要问题没有突破。具体而言,故事生成这一块的逆向过程,故事标注上鲜有人涉及,乏善可陈。本系统便是着重于故事生成的故事标注,弥补内这一领域上的一些空白。在人工智能以及语义识别上,有很重要的作用,对于虚拟现实,也有巨大的影响。
在对大量文献,以及故事生成领域的著作研究和发掘过程中,我们不难得出如下结论:故事生成是一个涉及广泛的庞大工程,故事内容包罗万象,从古典小说,到当代文学,从儿童故事到奇幻小说,这里涵盖天文地理,无所不包计算机科学、社会学、心理学、民间风俗等等[2],种种繁杂领域皆是牵涉其中。这对于故事生成的初始样本要求甚大,靠人工定义样本,无异于杯水车薪,需要辅助系统,故事标注系统来辅助实现。故事标注取材于现有故事,以及一系列叙事文本,可以说保罗万象。只要通过合理科学的方法将其解析起来,计算机就可以识别,并立即用于故事生成领域。故事标注系统,弥补了故事生成的先天不足和局限,对于故事生成和语义识别的作用甚大,对于人工智能,也有非常重要的意义。
国内外研究现状
上世纪七十年代,美国耶鲁大学的Schank和Abelson独领风骚,提出了叙事文本的可计算模型[3],其理解是基于使用目标、规划和脚本研究叙事文本。世界上第一个自动故事生成系统TaleSpin早在1976年就已经诞生,基于这一系统,生出很多妙不可言的故事世界,其开发者美国加州大学计算机与信息科学专家Meehan,也因此成为故事自动生成领域的权威泰斗。在该系统中,Meehan别出心裁,在给定的故事中,每一个人物都有自己的目标以及对于各等事物的态度。在生成的故事世界当中,其内人物是鲜活的,他们有自己的胸襟抱负,有自己的爱恨情仇,因此会作出各种尝试,在这些尝试当中,会产生种种变化,从而生成一个广阔而精彩的故事世界。1990连,美国麻省理工大学媒体实验室组织了一个讨论班,这一讨论班起初不引人注意,但是随后却是有此产生了叙事智能的概念。后来在这次会议为首二人Davis和Traverse的采访当中,我们才得知,那次会议起初不过就是讨论些文学理论,间接涉及和计算机有关的问题罢了,说来也是一段佳话。到了本世纪,叙事智能以及自动化故事生成得到了很多计算机爱好者的钟青,产生了很多有趣的故事标注系统,有些已经得到了推广应用。这些故事系统功能上最后都大体相近,但是其方式和实现手法以及其中核心思想却是
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1405.html