数据挖掘的大学信息技术”智能问答智能问答子系统
目 录
1 引言 1
1.1 课题背景 1
1.2 课题研究现状 1
1.3 课题研究内容 2
1.4 课题意义 3
2 开发技术简介 4
2.1 SpringMVC 4
2.2 Mybatis 4
2.3 jQuery 4
2.4 MySQL 4
2.5 Java 5
2.6 HtmlParser 5
3 可行性分析 5
3.1 技术可行性 5
3.2 经济可行性 5
3.3 法律可行性 5
4 需求分析 6
4.1 功能需求 6
4.2 环境要求 7
4.3 数据字典 7
4.4 数据流图 9
5 系统设计 14
5.1 系统功能模块图 14
5.2 数据表设计 15
5.3 实体图 18
6 详细设计 19
6.1 系统处理流程 19
6.2 相似度计算算法 22
6.3 网页分类算法 23
6.4 界面设计 24
7 测试 26
7.1 单元测试 26
7.2 集成测试 28
结 论 29
致 谢 30
参 考 文 献 31
1 引言
1.1 课题背景
20世纪60年代,人工智能的研究刚刚开始起步,人们便开始考虑计算机以自然语言回答问题的实现方法,这便 *好棒文|www.hbsrm.com +Q: ¥351916072¥
是智能问答系统的开端[1]。20世纪90年代,随着因特网的发展与应用,智能信息技术正在迅速发展。相对于传统的查阅书本、向他人提问等学习方式,人们更倾向于通过网络获取信息,因为通过网络获取信息更加方便快捷。但是,互联网的迅速发展,导致了信息的爆炸性增长,这些信息大多都是开放的,同时又是冗余的。这就导致了许多用户面临这样的难题:如何高效地获取到自己需要的信息。现在的搜索引擎出于商业目的,无法迅速准确地为用户提供他们所需要的信息[2]。而问答系统是集问题输入、自然语言处理、信息检索于一身的系统,相比于搜索引擎,能更好地满足用户的需求。因此,智能问答系统的研究与开发如雨后春笋般增加。目前智能答疑技术,基于统计的检索手法和浅层次语义分析的手法是主流[3]。
在校学生在课前预习和课后复习的时候常常会遇到许多不明白的问题,随时随地向老师请教是不现实的。而且,大多数学生问的问题都是重复性的,老师们多次回答这些问题既浪费时间又浪费精力[4]。
随着学生获取知识的需求急剧增加,以及网络内容的不断丰富,有必要设计更有效率的问答系统,基于数据挖掘的智能问答系统就是其中一种[5]。
1.2 课题研究现状
20世纪60年代人工智能研究起步的时候,问答系统便有了它的雏形。一般认为最早的问答系统为1966年JasPchwcieznb开发的Eliaz的问答系统。虽然该系统有很多弊端,但是已经具备了问答系统的基本框架。1971年,Winogrda组织利用MACLISP语言实现了首个比较实用的问答系统。该系统已经具备了今天问答系统的大多数特点。它的结构包括:解析器、语言识别器、语义分析器等。到了20世纪80年代,人工智能技术取得了较大的进步,智能问答系统的研究迎来了高潮。这段时期出现的较为出名的问答系统为WordNet问答系统,该问答系统由美国普林斯顿大学开发。该系统的理论基础为关系语言描述,它的通用词库收录了大量的名词、动词、形容词、副词以及概念词。20世纪90年代,随着互联网的兴起,计算机智能引起越来越多的关注。FrameNet便是在这个时期由美国加州大学开发并一直使用至今的智能问答系统。该系统是基于字符匹配的问答系统。它由458个词类框架和4000个通用词组成通用词库。Integrated Linguistic Database问答系统也是这个时期开发出的智能问答系统。该系统由英国剑桥大学、爱丁堡大学等研究机构联合研发的基于语义分类、语义特征、语义角色与选择限制的智能问答系统。此外,美国微软公司也在这个时期开发出了MindNet问答系统,该系统拥有庞大的通用词库,大大提高了答案的精度。
我国的很多研究机构也在积极开展中文问答系统的研究,并取得一定的成绩。如北京理工大学的银行领域汉语自动问答系统BAQS、清华大学的EasyNav校园导航系统等。
智能问答系统的实现方式有多种,传统的智能问答系统主要是建立答疑问题库、预存问题和答案,在答疑界面上缺乏类似“自然语言理解”的提问方式,更重要的则是后台知识是不可操作的,无法自动生成新的知识,因此不可能最有效地回答学习者提问,从而影响学习者的学习过程和学习效果[6]。目前主流的问答系统主要包括基于FQA库的问答系统、基于领域本体的问答系统、基于文本检索的问答系统。
1.3 课题研究内容
1)提高问答系统的准确度和覆盖范围
现 *好棒文|www.hbsrm.com +Q: ¥351916072¥
有的智能问答系统大多数只使用一种方式来实现系统的智能问答。单一的实现方式虽然具有花费时间少的优点,却使得系统所给答案的准确度相对较低。此外,每种实现方式都有一定的缺陷[7]。FAQ问答系统的数据规模是限制它的最主要因素;基于统计翻译模型的问答系统过于依赖训练语料的规模和质量;基于模式匹配的问答技术无法涵盖所有的问答模式;基于关键词的检索技术无法理解语义;基于本体的问答系统往往因为本体构造技术的不成熟而受到很大的限制。
2)计算问句之间的相似度
用户使用自然语言提出问题,提问方式多种多样,系统数据库中保存的问题不可能涵盖所有提问[8]。通常情况下,一个问句的表达形式有多种,但是它的语义表征只有一个。例如,“计算机的含义是什么?”与“什么是计算机?”语义表达式只有一个,即“计算机的概念”。此时,问句相似度的计算就显得尤为重要。问句相似度计算是常见问题库智能问答系统中的关键技术,用来实现系统中最相似问句的查找。
3)从网络上高效地筛选出对用户有用的信息
互联网的迅速发展,导致了信息的爆炸性增长,这些信息大多都是开放的,同时又是冗余的。这就导致了许多用户面临这样的难题:如何高效地获取到自己需要的信息。现在的搜索引擎处于商业目的,无法迅速准确地为用户提供他们所需要的信息。为了弥补传统搜索引擎的不足以及满足用户的需求。当FAQ库无法为用户提供有用的信息时,如何从网络上迅速筛选出用户想要的信息?
1.4 课题意义
随着网络技术的日益成熟和信息资源的爆炸性增长,信息过载的现象日益突出,教育领域也不例外。目前网络上的搜索引擎出于商业目的,问题的答案篇幅往往过大且无序,达不到教育领域对信息准确推荐的要求。学生在网络上搜索与大学信息技术相关的信息时,会出现大量冗余且无用的信息,从中筛选出有用的信息可能会消耗许多时间,而且准确度没有保证。而随时随地向老师请教问题的答案是不现实的。
面对传统搜索引擎的不足和对信息的新的需求,开发出高效且人性化的搜索引擎具有十分重要的意义[9]。而问答系统作为集知识表示、信息检索、自然语言处理和智能推理等技术于一身的新一代搜索引擎,能够满足用户迅捷高效的需求。
1 引言 1
1.1 课题背景 1
1.2 课题研究现状 1
1.3 课题研究内容 2
1.4 课题意义 3
2 开发技术简介 4
2.1 SpringMVC 4
2.2 Mybatis 4
2.3 jQuery 4
2.4 MySQL 4
2.5 Java 5
2.6 HtmlParser 5
3 可行性分析 5
3.1 技术可行性 5
3.2 经济可行性 5
3.3 法律可行性 5
4 需求分析 6
4.1 功能需求 6
4.2 环境要求 7
4.3 数据字典 7
4.4 数据流图 9
5 系统设计 14
5.1 系统功能模块图 14
5.2 数据表设计 15
5.3 实体图 18
6 详细设计 19
6.1 系统处理流程 19
6.2 相似度计算算法 22
6.3 网页分类算法 23
6.4 界面设计 24
7 测试 26
7.1 单元测试 26
7.2 集成测试 28
结 论 29
致 谢 30
参 考 文 献 31
1 引言
1.1 课题背景
20世纪60年代,人工智能的研究刚刚开始起步,人们便开始考虑计算机以自然语言回答问题的实现方法,这便 *好棒文|www.hbsrm.com +Q: ¥351916072¥
是智能问答系统的开端[1]。20世纪90年代,随着因特网的发展与应用,智能信息技术正在迅速发展。相对于传统的查阅书本、向他人提问等学习方式,人们更倾向于通过网络获取信息,因为通过网络获取信息更加方便快捷。但是,互联网的迅速发展,导致了信息的爆炸性增长,这些信息大多都是开放的,同时又是冗余的。这就导致了许多用户面临这样的难题:如何高效地获取到自己需要的信息。现在的搜索引擎出于商业目的,无法迅速准确地为用户提供他们所需要的信息[2]。而问答系统是集问题输入、自然语言处理、信息检索于一身的系统,相比于搜索引擎,能更好地满足用户的需求。因此,智能问答系统的研究与开发如雨后春笋般增加。目前智能答疑技术,基于统计的检索手法和浅层次语义分析的手法是主流[3]。
在校学生在课前预习和课后复习的时候常常会遇到许多不明白的问题,随时随地向老师请教是不现实的。而且,大多数学生问的问题都是重复性的,老师们多次回答这些问题既浪费时间又浪费精力[4]。
随着学生获取知识的需求急剧增加,以及网络内容的不断丰富,有必要设计更有效率的问答系统,基于数据挖掘的智能问答系统就是其中一种[5]。
1.2 课题研究现状
20世纪60年代人工智能研究起步的时候,问答系统便有了它的雏形。一般认为最早的问答系统为1966年JasPchwcieznb开发的Eliaz的问答系统。虽然该系统有很多弊端,但是已经具备了问答系统的基本框架。1971年,Winogrda组织利用MACLISP语言实现了首个比较实用的问答系统。该系统已经具备了今天问答系统的大多数特点。它的结构包括:解析器、语言识别器、语义分析器等。到了20世纪80年代,人工智能技术取得了较大的进步,智能问答系统的研究迎来了高潮。这段时期出现的较为出名的问答系统为WordNet问答系统,该问答系统由美国普林斯顿大学开发。该系统的理论基础为关系语言描述,它的通用词库收录了大量的名词、动词、形容词、副词以及概念词。20世纪90年代,随着互联网的兴起,计算机智能引起越来越多的关注。FrameNet便是在这个时期由美国加州大学开发并一直使用至今的智能问答系统。该系统是基于字符匹配的问答系统。它由458个词类框架和4000个通用词组成通用词库。Integrated Linguistic Database问答系统也是这个时期开发出的智能问答系统。该系统由英国剑桥大学、爱丁堡大学等研究机构联合研发的基于语义分类、语义特征、语义角色与选择限制的智能问答系统。此外,美国微软公司也在这个时期开发出了MindNet问答系统,该系统拥有庞大的通用词库,大大提高了答案的精度。
我国的很多研究机构也在积极开展中文问答系统的研究,并取得一定的成绩。如北京理工大学的银行领域汉语自动问答系统BAQS、清华大学的EasyNav校园导航系统等。
智能问答系统的实现方式有多种,传统的智能问答系统主要是建立答疑问题库、预存问题和答案,在答疑界面上缺乏类似“自然语言理解”的提问方式,更重要的则是后台知识是不可操作的,无法自动生成新的知识,因此不可能最有效地回答学习者提问,从而影响学习者的学习过程和学习效果[6]。目前主流的问答系统主要包括基于FQA库的问答系统、基于领域本体的问答系统、基于文本检索的问答系统。
1.3 课题研究内容
1)提高问答系统的准确度和覆盖范围
现 *好棒文|www.hbsrm.com +Q: ¥351916072¥
有的智能问答系统大多数只使用一种方式来实现系统的智能问答。单一的实现方式虽然具有花费时间少的优点,却使得系统所给答案的准确度相对较低。此外,每种实现方式都有一定的缺陷[7]。FAQ问答系统的数据规模是限制它的最主要因素;基于统计翻译模型的问答系统过于依赖训练语料的规模和质量;基于模式匹配的问答技术无法涵盖所有的问答模式;基于关键词的检索技术无法理解语义;基于本体的问答系统往往因为本体构造技术的不成熟而受到很大的限制。
2)计算问句之间的相似度
用户使用自然语言提出问题,提问方式多种多样,系统数据库中保存的问题不可能涵盖所有提问[8]。通常情况下,一个问句的表达形式有多种,但是它的语义表征只有一个。例如,“计算机的含义是什么?”与“什么是计算机?”语义表达式只有一个,即“计算机的概念”。此时,问句相似度的计算就显得尤为重要。问句相似度计算是常见问题库智能问答系统中的关键技术,用来实现系统中最相似问句的查找。
3)从网络上高效地筛选出对用户有用的信息
互联网的迅速发展,导致了信息的爆炸性增长,这些信息大多都是开放的,同时又是冗余的。这就导致了许多用户面临这样的难题:如何高效地获取到自己需要的信息。现在的搜索引擎处于商业目的,无法迅速准确地为用户提供他们所需要的信息。为了弥补传统搜索引擎的不足以及满足用户的需求。当FAQ库无法为用户提供有用的信息时,如何从网络上迅速筛选出用户想要的信息?
1.4 课题意义
随着网络技术的日益成熟和信息资源的爆炸性增长,信息过载的现象日益突出,教育领域也不例外。目前网络上的搜索引擎出于商业目的,问题的答案篇幅往往过大且无序,达不到教育领域对信息准确推荐的要求。学生在网络上搜索与大学信息技术相关的信息时,会出现大量冗余且无用的信息,从中筛选出有用的信息可能会消耗许多时间,而且准确度没有保证。而随时随地向老师请教问题的答案是不现实的。
面对传统搜索引擎的不足和对信息的新的需求,开发出高效且人性化的搜索引擎具有十分重要的意义[9]。而问答系统作为集知识表示、信息检索、自然语言处理和智能推理等技术于一身的新一代搜索引擎,能够满足用户迅捷高效的需求。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1910.html