食品投诉文档的分词系统的设计与实现(源码)
摘 要 摘 要中文分词是中文信息处理的重要组成部分,也是自然语言处理领域的重要研究方向之一。目前,分词技术作为处理信息的基础工作已经被广泛应用到互联网信息处理与信息检索的各个领域,分词技术的研究将直接影响到中文信息处理技术的发展。本文基于对正向最大匹配算法(FMM)的实现与分析,并进行FMM算法的优化,解决了传统的FMM算法因词典限制问题导致分词效率过低的问题。通过构建食品投诉文档语料库,利用Trie树进行词典构建和扩充,优化词串的匹配时间,减少了无效匹配的消耗;在字符分类模块中,将字符串中字符分类切分,解决了因非汉字字符所导致的匹配时间浪费问题。本文选取win7开发平台,采用FMM优化分词算法,使用Java语言设计并实现一个基于食品投诉文档的CWSS分词原型系统。通过采用国家食品药品监督投诉网中的语料进行该系统的分词测试,验证系统的可行性和正确性,并对传统FMM分词算法和优化的FMM分词算法进行实验结果分析。实验证明,FMM优化分词算法能够有效提高分词精准率,减少了分词的时间,提高分词效率。关键词:中文信息处理;分词系统;字典树;正向最大匹配算法目 录
第一章 绪论 1
1.1选题背景及研究意义 1
1.1.1选题背景 1
1.1.2研究意义 1
1.2中文分词国内外研究现状与发展 2
1.2.1国内研究现状 2
1.2.3国外研究现状 2
1.3中文分词的研究内容和应用领域 3
1.3.1中文的结构特点分析 3
1.3.2中文分词的研究内容 4
1.3.3中文分词的应用领域 4
1.4本文的组织结构 6
第二章 中文分词关键技术研究 7
2.1基于词典匹配的分词方法 7
2.2基于理解的分词方法 8
2.3基于统计的分词方法 8
2.4三类分词算法的对比分析 8
2.4.1分词的准确性问题 9
2.4.2分词的速度问题 9
2.4.3未登录词识别问题 10
2.4.4歧义字段切分问题
*好棒文|www.hbsrm.com +Q: ¥351916072¥
第二章 中文分词关键技术研究 7
2.1基于词典匹配的分词方法 7
2.2基于理解的分词方法 8
2.3基于统计的分词方法 8
2.4三类分词算法的对比分析 8
2.4.1分词的准确性问题 9
2.4.2分词的速度问题 9
2.4.3未登录词识别问题 10
2.4.4歧义字段切分问题 10
第三章 FMM优化算法的研究与实现 13
3.1 FMM分词算法概述 13
3.1.1 FMM算法主要思想 13
3.1.2 FMM算法的设计流程 13
3.1.3 FMM分词算法的分析 15
3.2 FMM优化算法的研究与实现 16
3.2.1 FMM优化算法的设计思想 16
3.2.2 FMM优化算法的实现 16
第四章 CWSS分词系统的设计与实现 21
4.1 CWSS系统结构简述 21
4.2 CWSS分词系统的词库构建 21
4.3 CWSS分词系统语料库构建 22
4.4 CWSS分词系统的设计与实现 23
4.5 算法复杂度分析 23
4.5.1.FMM算法时间复杂度分析 23
4.5.2 CWSS分词算法时间复杂度分析 24
4.5.3 CWSS分词算法与FMM算法内存消耗对比 25
第五章 CWSS分词系统测试与实验分析 26
结 论 29
致 谢 30
参考文献 31
第一章 绪论
1.1选题背景及研究意义
1.1.1选题背景
近年来,随着互联网科技的迅速发展,互联网中日益增加的海量数据信息给信息处理以及分析带来了极大的挑战。而现在人们对于食品安全的关注度也在大幅度提升,食品安全是关系到生命安全的重要问题,目前关于食品安全投诉平台也在逐步完善之中。
如何从大量的食品安全投诉文本中找出具有实质性价值的信息,也是处理食品安全后续工作的关键,这就涉及到了中文信息文本处理领域的技术,而分词技术也用运而生,越来越多用于中文信息文本处理的研究,为投诉平台的完善以及投诉文本的分析提供了技术基础。
1.1.2研究意义
食品安全问题是关系到人民日常生活以及生命安全的重大问题。近年来,随着生活水平的提升,食品安全问题引起了全社会的关注[1]。而数字化时代的到来,信息技术以及计算机技术的快速发展,作为 21 世纪最显著的发展技术——互联网,已经承担起了网络食品安全监管以及食品安全信息反馈的重大责任。而互联网中的海量信息必须通过处理和分析才能为人所用,分词技术将为食品安全投诉平台提供技术的基础,以满足食品安全投诉平台对于网络投诉文本的时效性和准确性的要求;同时还能有效促进了各食品安全管理部门相互之间的信息交流,切实维护和保障消费者的合法权益[1]。
现如今互联网上的信息资源呈阶梯式速度增长,以315消费投诉平台为例,网络平台目前可接到日均总投诉量在1500宗以上,其中涉及到的用户数量达100万以上,其中关于食品安全投诉达到全部投诉的25%,大部分投诉信息都可真实的反映出食品中所存在的安全问题[2]。但是这些投诉信息大多通过单一的文本形式进行表述,但其中对食品安全问题所表现出的不正规的信息描述,使得这些投诉文本中大多含有一定数量的虚假或者干扰信息,这就影响了对包含真实信息的文本的信息分析,降低了投诉文档数据的利用率,而人工进行文本信息的分析又非常耗时耗力,并且在准确率上也不尽如人意。
如何对海量的投诉文档中进行文本的分析,提取出正确有用的信息,为食品安全提供坚实的决策依据,这也成为目前文本分析研究比较关注的热点。为了能够监督并提高食品质量水平,给消费者以及管理部门提供可靠信息,就必须从投诉文档入手,通过中文分词提取出文本中的关键信息以帮助进行后续工作的开展。
1.2中文分词国内外研究现状与发展
1.2.1国内研究现状
由于互联网时代对信息检索的要求,越来越多的研究人员投身到计算机分词的领域中去。从上个世纪末开始,国内在分词技术的研究上取得了显著的成绩,其中包括很多高校以及研究机构:
(1)北京航空学院在1984年由梁南元提出的CDWS分词系统,这是国内最早的关于中文分词系统的研究和报道,实现了对汉字的切分功能。
(2)ICTCLAS分词系统是采用词性分析技术进行分词,由中科院经过多年研究所得到的成果,在分词速度和精度上都可以达到世界领先的水平,并提供了开源API供众多用户使用,服务于30000多家企业和学术机构[3],ICTCLAS的分词精度达到了99%以上,而提供的API大小不超过200KB,更能满足用户的使用需求。
(3)Paoding(庖丁解牛分词)是基于Java实现的开源项目。具有极高的分词效率和扩展性,在构思上非常先进,速度可达100万字/s,还可以对词汇进行分类定义,提供lucene和solr 接口供扩展和使用[4]。
(4)IKAnalyzer同Paoding分词一样是基于Java实现的开源项目。目前有开发出三个使用版本,主要分词思想是将词典匹配分词和文本分析相结合的方式,这样可以同时保证分词的速度以及精度。最新版本的分词速度可以达到120万字/s。
为了统一汉语分词的标准,在1993年,国家技术监督局颁布实施了现代汉语分词规范,为分词提供了一个标准的分词规范,促进了各类分词算法的相互融合,共同进步。
1.2.3国外研究现状
近年来,随着中文分词技术的广泛运用,国外对于中文分词也进行了大量的研究,一些国际领先的互联网企业也加入了分词的研究领域中去,例如Google,苹果,以及Basis Technology公司,而其中微软公司是最早进行分词研究的企业。在2003年日本札幌举行的首届国际汉语评测(Bakeoff)大会上[5],微软公司开发的分词系统从12家参赛机构中脱颖而出,成为与中科院ICTCLA
第一章 绪论 1
1.1选题背景及研究意义 1
1.1.1选题背景 1
1.1.2研究意义 1
1.2中文分词国内外研究现状与发展 2
1.2.1国内研究现状 2
1.2.3国外研究现状 2
1.3中文分词的研究内容和应用领域 3
1.3.1中文的结构特点分析 3
1.3.2中文分词的研究内容 4
1.3.3中文分词的应用领域 4
1.4本文的组织结构 6
第二章 中文分词关键技术研究 7
2.1基于词典匹配的分词方法 7
2.2基于理解的分词方法 8
2.3基于统计的分词方法 8
2.4三类分词算法的对比分析 8
2.4.1分词的准确性问题 9
2.4.2分词的速度问题 9
2.4.3未登录词识别问题 10
2.4.4歧义字段切分问题
*好棒文|www.hbsrm.com +Q: ¥351916072¥
第二章 中文分词关键技术研究 7
2.1基于词典匹配的分词方法 7
2.2基于理解的分词方法 8
2.3基于统计的分词方法 8
2.4三类分词算法的对比分析 8
2.4.1分词的准确性问题 9
2.4.2分词的速度问题 9
2.4.3未登录词识别问题 10
2.4.4歧义字段切分问题 10
第三章 FMM优化算法的研究与实现 13
3.1 FMM分词算法概述 13
3.1.1 FMM算法主要思想 13
3.1.2 FMM算法的设计流程 13
3.1.3 FMM分词算法的分析 15
3.2 FMM优化算法的研究与实现 16
3.2.1 FMM优化算法的设计思想 16
3.2.2 FMM优化算法的实现 16
第四章 CWSS分词系统的设计与实现 21
4.1 CWSS系统结构简述 21
4.2 CWSS分词系统的词库构建 21
4.3 CWSS分词系统语料库构建 22
4.4 CWSS分词系统的设计与实现 23
4.5 算法复杂度分析 23
4.5.1.FMM算法时间复杂度分析 23
4.5.2 CWSS分词算法时间复杂度分析 24
4.5.3 CWSS分词算法与FMM算法内存消耗对比 25
第五章 CWSS分词系统测试与实验分析 26
结 论 29
致 谢 30
参考文献 31
第一章 绪论
1.1选题背景及研究意义
1.1.1选题背景
近年来,随着互联网科技的迅速发展,互联网中日益增加的海量数据信息给信息处理以及分析带来了极大的挑战。而现在人们对于食品安全的关注度也在大幅度提升,食品安全是关系到生命安全的重要问题,目前关于食品安全投诉平台也在逐步完善之中。
如何从大量的食品安全投诉文本中找出具有实质性价值的信息,也是处理食品安全后续工作的关键,这就涉及到了中文信息文本处理领域的技术,而分词技术也用运而生,越来越多用于中文信息文本处理的研究,为投诉平台的完善以及投诉文本的分析提供了技术基础。
1.1.2研究意义
食品安全问题是关系到人民日常生活以及生命安全的重大问题。近年来,随着生活水平的提升,食品安全问题引起了全社会的关注[1]。而数字化时代的到来,信息技术以及计算机技术的快速发展,作为 21 世纪最显著的发展技术——互联网,已经承担起了网络食品安全监管以及食品安全信息反馈的重大责任。而互联网中的海量信息必须通过处理和分析才能为人所用,分词技术将为食品安全投诉平台提供技术的基础,以满足食品安全投诉平台对于网络投诉文本的时效性和准确性的要求;同时还能有效促进了各食品安全管理部门相互之间的信息交流,切实维护和保障消费者的合法权益[1]。
现如今互联网上的信息资源呈阶梯式速度增长,以315消费投诉平台为例,网络平台目前可接到日均总投诉量在1500宗以上,其中涉及到的用户数量达100万以上,其中关于食品安全投诉达到全部投诉的25%,大部分投诉信息都可真实的反映出食品中所存在的安全问题[2]。但是这些投诉信息大多通过单一的文本形式进行表述,但其中对食品安全问题所表现出的不正规的信息描述,使得这些投诉文本中大多含有一定数量的虚假或者干扰信息,这就影响了对包含真实信息的文本的信息分析,降低了投诉文档数据的利用率,而人工进行文本信息的分析又非常耗时耗力,并且在准确率上也不尽如人意。
如何对海量的投诉文档中进行文本的分析,提取出正确有用的信息,为食品安全提供坚实的决策依据,这也成为目前文本分析研究比较关注的热点。为了能够监督并提高食品质量水平,给消费者以及管理部门提供可靠信息,就必须从投诉文档入手,通过中文分词提取出文本中的关键信息以帮助进行后续工作的开展。
1.2中文分词国内外研究现状与发展
1.2.1国内研究现状
由于互联网时代对信息检索的要求,越来越多的研究人员投身到计算机分词的领域中去。从上个世纪末开始,国内在分词技术的研究上取得了显著的成绩,其中包括很多高校以及研究机构:
(1)北京航空学院在1984年由梁南元提出的CDWS分词系统,这是国内最早的关于中文分词系统的研究和报道,实现了对汉字的切分功能。
(2)ICTCLAS分词系统是采用词性分析技术进行分词,由中科院经过多年研究所得到的成果,在分词速度和精度上都可以达到世界领先的水平,并提供了开源API供众多用户使用,服务于30000多家企业和学术机构[3],ICTCLAS的分词精度达到了99%以上,而提供的API大小不超过200KB,更能满足用户的使用需求。
(3)Paoding(庖丁解牛分词)是基于Java实现的开源项目。具有极高的分词效率和扩展性,在构思上非常先进,速度可达100万字/s,还可以对词汇进行分类定义,提供lucene和solr 接口供扩展和使用[4]。
(4)IKAnalyzer同Paoding分词一样是基于Java实现的开源项目。目前有开发出三个使用版本,主要分词思想是将词典匹配分词和文本分析相结合的方式,这样可以同时保证分词的速度以及精度。最新版本的分词速度可以达到120万字/s。
为了统一汉语分词的标准,在1993年,国家技术监督局颁布实施了现代汉语分词规范,为分词提供了一个标准的分词规范,促进了各类分词算法的相互融合,共同进步。
1.2.3国外研究现状
近年来,随着中文分词技术的广泛运用,国外对于中文分词也进行了大量的研究,一些国际领先的互联网企业也加入了分词的研究领域中去,例如Google,苹果,以及Basis Technology公司,而其中微软公司是最早进行分词研究的企业。在2003年日本札幌举行的首届国际汉语评测(Bakeoff)大会上[5],微软公司开发的分词系统从12家参赛机构中脱颖而出,成为与中科院ICTCLA
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2347.html