php的languagetool二次开发与应用(源码)【字数:8870】
摘 要由于书面语言的严谨性和规范性,词法语法检测与校对就一直困扰着人类。本文的目的是便为了解决此问题。本文将以集众多语言学家和计算机学家共同研究和开发的插件LanguageTool作为研究词法语法检测的切入点,最终将研究成果运用到笔者之前参与开发的基于PHP的“英语四六级在线考试系统”的写作模块中。最终的集成结果表明,该插件能够检测出作文的错误并提示。通过不断的完善规则库可以解决长久以来不断困扰人类的词法语法的检测与校对问题。
目 录
第一章 绪论 1
1.1课题的背景与意义 1
1.2国内外的现状 1
1.3本课题研究的内容 2
1.4论文的组织架构 2
第二章 相关理论与技术 3
2.1PHP与Yii Framework 3
2.2PHP调用Java的程序的方法 3
2.3LanguageTool简介及原理 6
第三章 LanguageTool的规则研究与开发 9
3.1添加LanguageTool规则 9
3.2环境搭建与核心代码说明 12
第四章 基于PHP的LanguageTool的应用与测试 15
4.1 基于PHP的LanguageTool的应用 15
4.2 系统功能测试 18
第五章 总结与展望 20
5.1课题总结 20
5.2未来展望 20
结束语 21
致 谢 22
参考文献 23
第一章 绪论
1.1课题的背景与意义
英语词法语法检测与校正系统作为自然语言研究的一个重要领域之一,就当前社会发展情况看来,这项研究早已运用于Word等办公软件和IntelliJ IDEA等编程开发软件中,并且日益成为其不可或缺的一个重要嵌套插件。而在社会市场上也出现许多此类的词法语法检测校正插件,例如LanguageTool、OpenNLP、StanforParser等,虽然这些插件都提供了分词分句、单词提取校对等功能,但在实际开发中仍然需要进一步的完善。综合研究难度和开发工作量考虑,笔者最终选用了 *好棒文|www.hbsrm.com +Q: *351916072*
LanguageTool。LanguageTool作为一个集成了多门语言的国外开源研究项目。国外许多有才能的技术人才专业的设计思想,自然语言的处理手段,完善的API文档解读,以及其高度自由的二次开发环境为许多非专业的人士提供了一条研究此项技术的捷径。
LanguageTool是基于Java开发的插件,而在实际的开发生产中,并不是所有的软件都是基于Java语言开发的。为每一种语言都重新开发出一套自己语言的词法语法检测工具,显然这个想法是不成熟的。所以笔者特地选用基于另一种语言PHP开发的“英语四六级在线考试系统”作为检验实际二次开发成果的测试软件,以此来模拟实际的生产环境。
1.2国内外的现状
从1960年起,国外开始了对英文文本的检测与分析的研究,刚开始仅仅是对英文的拼写和自动校对技术的研究。是由IBM的研究人员在第一台集成电路的计算机IBM/360上搭建了一个英文的拼写检查器TYPO,然后才开始了研究。大约从90年代开始,文本的检测出现了两个明显的特征即对系统的输入和对系统的输出,同时强调大规模的使用真实的文本。因此,大规模的真实语言库的研究和大规模、信息丰富的词典的编制工作受到了重视。国外对文本的词法语法检测也进入了飞速发展阶段。
国内对于文本的词法语法检测起步很晚,而且刚开始起步时并没有足够的资金支持,最开始则是由一群对此感兴趣的有才之士研究的,并没有国外那么专业。后来在学会的倡导下,顶着研究资金短缺和设备落后的条件下,由少数中老年的教授带领着其手下的一少部分对此感兴趣的研究生组成队伍。所以国内的自然语言处理的研究成果还是非常不完善的。直到80年代中期,列为国家重点科技项目,并拨出大量资金以及组织了一批专业的研究团队进行研究后,国内才逐步开始了对文本的词法语法检测的研究。90年代中期,北京的黑马公司开发了文本词法语法校对工具黑马校对,并支持英文中文等多国语言的检测。
LanguageTool是在此思想基础上开发的词法语法检测插件。是由丹尼尔纳伯(Daniel Naber)于2003年在git上开始了开源研究。并在2010年9月26号发布的LanguageTool 1.1版本。此后LanguageTool使用基于时间的发布周期,每三个月更新版本。
1.3本课题研究的内容
随着社会的发展,计算机变得越来越智能,而且计算机将会成为人类生活中的一部分。人们的绝大部分的重复繁琐的任务将会渐渐的交由计算机来完成。而自然语言的处理最终也会交由计算机来检测和处理。而本文将借用已经成熟的自然语言处理的思想和插件LanguageTool作为进入这条道路的入门,通过研究其处理过程和运行机制、原理,并添加适合实际开发过程中的简单规则。最终通过集成到笔者之前利用PHP开发的软件中以此来模拟真实的开发环境。
1.4论文的组织架构
本论文结构如下:
绪论:主要介绍了课题的背景与意义、国内外的发展状况和本课题所研究的内容
相关理论与技术:主要介绍了PHP与Yii Framework、两种PHP调用Java程序的方法及使用场景、LanguageTool的介绍和原理。
LanguageTool的规则研究与开发:简单介绍以Java代码和XML的两种方式对插件的规则库进行添加规则。并描述了在实际开发过程中的相关运行环境的部署以及核心代码的描述。
基于PHP的LanguageTool的应用与测试:对待集成此研究成果的系统进行简单介绍,以及对集成了LanguageTool的插件的地方进行了简单的功能测试以及效果展示。
总结与展望:对整个系统进行简要的总结,并提出了还需要完善的地方。以及将来还需要重点研究的地方。
目 录
第一章 绪论 1
1.1课题的背景与意义 1
1.2国内外的现状 1
1.3本课题研究的内容 2
1.4论文的组织架构 2
第二章 相关理论与技术 3
2.1PHP与Yii Framework 3
2.2PHP调用Java的程序的方法 3
2.3LanguageTool简介及原理 6
第三章 LanguageTool的规则研究与开发 9
3.1添加LanguageTool规则 9
3.2环境搭建与核心代码说明 12
第四章 基于PHP的LanguageTool的应用与测试 15
4.1 基于PHP的LanguageTool的应用 15
4.2 系统功能测试 18
第五章 总结与展望 20
5.1课题总结 20
5.2未来展望 20
结束语 21
致 谢 22
参考文献 23
第一章 绪论
1.1课题的背景与意义
英语词法语法检测与校正系统作为自然语言研究的一个重要领域之一,就当前社会发展情况看来,这项研究早已运用于Word等办公软件和IntelliJ IDEA等编程开发软件中,并且日益成为其不可或缺的一个重要嵌套插件。而在社会市场上也出现许多此类的词法语法检测校正插件,例如LanguageTool、OpenNLP、StanforParser等,虽然这些插件都提供了分词分句、单词提取校对等功能,但在实际开发中仍然需要进一步的完善。综合研究难度和开发工作量考虑,笔者最终选用了 *好棒文|www.hbsrm.com +Q: *351916072*
LanguageTool。LanguageTool作为一个集成了多门语言的国外开源研究项目。国外许多有才能的技术人才专业的设计思想,自然语言的处理手段,完善的API文档解读,以及其高度自由的二次开发环境为许多非专业的人士提供了一条研究此项技术的捷径。
LanguageTool是基于Java开发的插件,而在实际的开发生产中,并不是所有的软件都是基于Java语言开发的。为每一种语言都重新开发出一套自己语言的词法语法检测工具,显然这个想法是不成熟的。所以笔者特地选用基于另一种语言PHP开发的“英语四六级在线考试系统”作为检验实际二次开发成果的测试软件,以此来模拟实际的生产环境。
1.2国内外的现状
从1960年起,国外开始了对英文文本的检测与分析的研究,刚开始仅仅是对英文的拼写和自动校对技术的研究。是由IBM的研究人员在第一台集成电路的计算机IBM/360上搭建了一个英文的拼写检查器TYPO,然后才开始了研究。大约从90年代开始,文本的检测出现了两个明显的特征即对系统的输入和对系统的输出,同时强调大规模的使用真实的文本。因此,大规模的真实语言库的研究和大规模、信息丰富的词典的编制工作受到了重视。国外对文本的词法语法检测也进入了飞速发展阶段。
国内对于文本的词法语法检测起步很晚,而且刚开始起步时并没有足够的资金支持,最开始则是由一群对此感兴趣的有才之士研究的,并没有国外那么专业。后来在学会的倡导下,顶着研究资金短缺和设备落后的条件下,由少数中老年的教授带领着其手下的一少部分对此感兴趣的研究生组成队伍。所以国内的自然语言处理的研究成果还是非常不完善的。直到80年代中期,列为国家重点科技项目,并拨出大量资金以及组织了一批专业的研究团队进行研究后,国内才逐步开始了对文本的词法语法检测的研究。90年代中期,北京的黑马公司开发了文本词法语法校对工具黑马校对,并支持英文中文等多国语言的检测。
LanguageTool是在此思想基础上开发的词法语法检测插件。是由丹尼尔纳伯(Daniel Naber)于2003年在git上开始了开源研究。并在2010年9月26号发布的LanguageTool 1.1版本。此后LanguageTool使用基于时间的发布周期,每三个月更新版本。
1.3本课题研究的内容
随着社会的发展,计算机变得越来越智能,而且计算机将会成为人类生活中的一部分。人们的绝大部分的重复繁琐的任务将会渐渐的交由计算机来完成。而自然语言的处理最终也会交由计算机来检测和处理。而本文将借用已经成熟的自然语言处理的思想和插件LanguageTool作为进入这条道路的入门,通过研究其处理过程和运行机制、原理,并添加适合实际开发过程中的简单规则。最终通过集成到笔者之前利用PHP开发的软件中以此来模拟真实的开发环境。
1.4论文的组织架构
本论文结构如下:
绪论:主要介绍了课题的背景与意义、国内外的发展状况和本课题所研究的内容
相关理论与技术:主要介绍了PHP与Yii Framework、两种PHP调用Java程序的方法及使用场景、LanguageTool的介绍和原理。
LanguageTool的规则研究与开发:简单介绍以Java代码和XML的两种方式对插件的规则库进行添加规则。并描述了在实际开发过程中的相关运行环境的部署以及核心代码的描述。
基于PHP的LanguageTool的应用与测试:对待集成此研究成果的系统进行简单介绍,以及对集成了LanguageTool的插件的地方进行了简单的功能测试以及效果展示。
总结与展望:对整个系统进行简要的总结,并提出了还需要完善的地方。以及将来还需要重点研究的地方。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/442.html