nltk的英文词法分析系统设计与实现(源码)【字数:12927】
摘 要随着人工智能的发展,人们逐渐开始利用编程语言来实现对于自然语言的处理, 在现实生活中,这一发展也有着广阔的应用前景。但是,受制于编程语言的局限性,对于自然语言的处理也只是在较为简单的阶段。本文主要研究的是对英文词法的自然语言处理并将其结果在网页上展示。基于NLTK技术的英文词法分析系统的主要功能是对英文词法的数据分析做一个具体的展示,通过对历年英语四、六级考试和研究生入学英语考试数据进行分析,主要实现单词检索功能,近十年单词频率分析功能,四、六级听力场景分析功能,英文拆解分析功能,研究生英语入学考试阅读理解分析功能,使数据分析结果更清晰明了的呈现给用户。本系统运行于Windows10的系统,所使用的开发工具是PyCharm2018.3.5,将SQLServer2008作为后台数据库,采用的编程语言为Python、HTML5、CSS3以及JavaScript,该系统的数据来源真实可靠,功能较为实用,安全性较高。经过测试,本系统可以实现对数据的准确分析,并以可视化图表在网页上展示,具有结构简单,可操作性强,实用性高等特点,充分考虑了大学生对英文学习的需要,完全满足使用者的要求。
Keywords: natural language processing, technology NLTK, PyCharm,MySQL目 录
第1章 前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.3研究目的和意义 2
1.3.1研究目的 2
1.3.2研究意义 2
1.4全文组织结构 3
第2章 系统开发环境与关键技术 4
2.1系统环境简介 4
2.1.1系统运行环境 4
2.1.2系统开发语言 4
2.2系统开发技术 4
2.3系统开发工具 4
第3章 系统分析 6
3.1需求分析 6
3.1.1系统概述 6
3.1.2功能需求 6
3.2系统性能分析 7
3.3系统可行性分析 7
3.3.1技术可行性 *好棒文|www.hbsrm.com +Q: ^351916072*
7
3.3.2经济可行性 8
3.3.3操作可行性 8
第4章 系统概要设计 9
4.1总体设计 9
4.2模块设计 9
4.2.1单词检索模块设计 9
4.2.2近十年的单词频率维度模块设计 9
4.2.3四、六级听力场景分析模块设计 9
4.2.4英文拆解分析模块设计 9
4.2.5研究生英语入学考试阅读理解真题分析模块设计 9
4.3数据库设计 9
第5章 数据分析算法与实现 11
5.1词性标注及命名体识别 11
5.1.1词性标注 11
5.1.2标注语料库 11
5.1.3涉及ngram的统计建模 12
5.2模型训练和预测 12
5.2.1贝叶斯分类器模型 12
5.2.2使用模型做预测 13
第6章 系统详细设计与实现 15
6.1系统实现 15
6.1.1系统结构实现 15
6.1.2用户模块实现 15
6.2数据库实现 15
6.3数据分析结果可视化实现 17
6.3.1对数据文本进行分析 17
6.3.2将数据分析结果进行可视化 18
6.4各模块功能实现 20
6.4.1单词检索模块设计 20
6.4.2近十年的单词频率维度模块设计 21
6.4.3四、六级听力场景分析模块设计 23
6.4.4英文拆解分析模块设计 24
6.4.5研究生英语入学考试阅读理解真题分析模块设计 24
第7章 英文词法分析系统测试 26
7.1测试环境 26
7.2测试方法 26
7.3功能测试 26
7.3.1单元测试 26
7.3.2集成测试 30
第8章 总结与展望 33
8.1 总结 33
8.2 展望 33
参 考 文 献 34
致 谢 35
第1章 前言
1.1研究背景
机器学习近些年来处理自然语言成为新的研究领域,并且这也是人们在研究热门的互联网传输技术,例如谷歌、微软、百度和阿里巴巴进行了大量努力以及巨额投资[1]。分析单词和语言是第一项逻辑任务,研究英语、中文、句子和命名体识别之间的相互之间的协作关系,并阐述一个基于语言模型的实用中英文词法分析系统是编译过程的第一阶段。单词是最小的具有意义的单元,可以在自然语言中独立使用,只能作为计算机文本分析的最基本的形态。
在这个阶段,语言、信息处理、人工智能和认知科学的方向,以及语言科学方向[2] 是自然语言处理所研究的主要四个方向。自然语言是人工智能的教育,也是人工智能领域最棘手的问题之一,研究自然语言可谓是充满了魅力,同样也充满着挑战。理解自然语言,需要外在世界的广泛知识以及运用操作这些知识的能力。通过做这个选题可以帮助我们加深对计算机语言编译技术中中英文词法分析的理解和应用,也希望可以给一些不理解自然语言的人一些提示、示范,让更多学习编译原理的同学更好地了解编译程序的基本实现方法和技术。
1.2国内外研究现状
自然语言指的是日常使用语言,例如中文、英语和法语,是指一个自然语言机构。而自然语言处理 (Natural Language Processing, NLP)[3] 则是指运用计算机技术对自然语言进行处理、理解并运用, 它是人工智能和语言学的分支学科。作为人工智能领域研究的重要方向之一,主要是为了实现人和计算机之间尤其是情感之间的交互。
1949年,IT和人工智能结合发挥重要作用。20世纪60年代,工程师们先提出了大规模机器翻译方案,但人们显然低估了自然语言的复杂性,语言与教育理论技术均不成熟。大约从90年代开始,自然语言处理领域逐步发生了巨大的变化。
Keywords: natural language processing, technology NLTK, PyCharm,MySQL目 录
第1章 前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.3研究目的和意义 2
1.3.1研究目的 2
1.3.2研究意义 2
1.4全文组织结构 3
第2章 系统开发环境与关键技术 4
2.1系统环境简介 4
2.1.1系统运行环境 4
2.1.2系统开发语言 4
2.2系统开发技术 4
2.3系统开发工具 4
第3章 系统分析 6
3.1需求分析 6
3.1.1系统概述 6
3.1.2功能需求 6
3.2系统性能分析 7
3.3系统可行性分析 7
3.3.1技术可行性 *好棒文|www.hbsrm.com +Q: ^351916072*
7
3.3.2经济可行性 8
3.3.3操作可行性 8
第4章 系统概要设计 9
4.1总体设计 9
4.2模块设计 9
4.2.1单词检索模块设计 9
4.2.2近十年的单词频率维度模块设计 9
4.2.3四、六级听力场景分析模块设计 9
4.2.4英文拆解分析模块设计 9
4.2.5研究生英语入学考试阅读理解真题分析模块设计 9
4.3数据库设计 9
第5章 数据分析算法与实现 11
5.1词性标注及命名体识别 11
5.1.1词性标注 11
5.1.2标注语料库 11
5.1.3涉及ngram的统计建模 12
5.2模型训练和预测 12
5.2.1贝叶斯分类器模型 12
5.2.2使用模型做预测 13
第6章 系统详细设计与实现 15
6.1系统实现 15
6.1.1系统结构实现 15
6.1.2用户模块实现 15
6.2数据库实现 15
6.3数据分析结果可视化实现 17
6.3.1对数据文本进行分析 17
6.3.2将数据分析结果进行可视化 18
6.4各模块功能实现 20
6.4.1单词检索模块设计 20
6.4.2近十年的单词频率维度模块设计 21
6.4.3四、六级听力场景分析模块设计 23
6.4.4英文拆解分析模块设计 24
6.4.5研究生英语入学考试阅读理解真题分析模块设计 24
第7章 英文词法分析系统测试 26
7.1测试环境 26
7.2测试方法 26
7.3功能测试 26
7.3.1单元测试 26
7.3.2集成测试 30
第8章 总结与展望 33
8.1 总结 33
8.2 展望 33
参 考 文 献 34
致 谢 35
第1章 前言
1.1研究背景
机器学习近些年来处理自然语言成为新的研究领域,并且这也是人们在研究热门的互联网传输技术,例如谷歌、微软、百度和阿里巴巴进行了大量努力以及巨额投资[1]。分析单词和语言是第一项逻辑任务,研究英语、中文、句子和命名体识别之间的相互之间的协作关系,并阐述一个基于语言模型的实用中英文词法分析系统是编译过程的第一阶段。单词是最小的具有意义的单元,可以在自然语言中独立使用,只能作为计算机文本分析的最基本的形态。
在这个阶段,语言、信息处理、人工智能和认知科学的方向,以及语言科学方向[2] 是自然语言处理所研究的主要四个方向。自然语言是人工智能的教育,也是人工智能领域最棘手的问题之一,研究自然语言可谓是充满了魅力,同样也充满着挑战。理解自然语言,需要外在世界的广泛知识以及运用操作这些知识的能力。通过做这个选题可以帮助我们加深对计算机语言编译技术中中英文词法分析的理解和应用,也希望可以给一些不理解自然语言的人一些提示、示范,让更多学习编译原理的同学更好地了解编译程序的基本实现方法和技术。
1.2国内外研究现状
自然语言指的是日常使用语言,例如中文、英语和法语,是指一个自然语言机构。而自然语言处理 (Natural Language Processing, NLP)[3] 则是指运用计算机技术对自然语言进行处理、理解并运用, 它是人工智能和语言学的分支学科。作为人工智能领域研究的重要方向之一,主要是为了实现人和计算机之间尤其是情感之间的交互。
1949年,IT和人工智能结合发挥重要作用。20世纪60年代,工程师们先提出了大规模机器翻译方案,但人们显然低估了自然语言的复杂性,语言与教育理论技术均不成熟。大约从90年代开始,自然语言处理领域逐步发生了巨大的变化。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/414.html