面向食品安全突发事件的词汇标注研究

1
目录
Abstract 1
Key words 1
引言 2
一、研究背景及意义 2
(一)研究背景 2
(二)研究方法 2
(三)研究流程 3
(四)研究意义 3
二、文献综述 3
(一)食品安全突发事件 4
(二)中文分词技术 4
三、食品安全突发事件的语料简介 4
(一)语料来源 4
(二)语料抓取 5
(三)语料清洗 5
(四)语料规模 5
四、面向食品安全语料的词汇标注 6
(一)基于中科院分词系统(ICTCLAS)的处理 6
(二)前后最大匹配下的分词 7
(三)分词标注结果整合 7
(四)基于分布的词性标注 8
五、结果分析 9
六、结语 9
致谢 9
参考文献 10
附表2:食品安全突发事件具体案例标题(50个) 11
附表3:未导入用户词典的分词标注全文样例 12
附表4:最大正向匹配分词全文样例 12
附表5:最大逆向匹配分词全文样例 13
附表6:导入用户词典的分词标注全文样例 13
附表7:初始标注与重标注部分结果(50个) 14
附表8:无效标注部分结果(50个) 14
图1:研究流程图 3
表2:食品安全突发事件具体案例标题 6
表3:未导入用户词典的分词标注部分结果 6
表4:最大正向匹配分词部分结果 7
表5:最大逆向匹配分词部分结果 7
表6:导入用户词典的分词标注部分结果 7
表7:初始标注与重标注部分结果 8
表8:无效标注部分结果 9
面向食品安全突发事件的词汇标注研究
信息管理与信息系统专业学生 祁晨
指导教师 王东波
摘要:随着信息检索和自然语言技术的发展,在信息检索过程中引入自然语言处理 *好棒文|www.hbsrm.com +Q: ^351916072^ 
技术是信息检索发展的趋势之一,而词汇标注作为自然语言处理领域的基础,可以提高检索效率与效果。本文主要基于经过分词技术处理的食品安全突发事件训练语料,借助汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)中的中文分词接口,针对Web文档中未登录词较多的特点,对部分未登录词的词性进行一定范围的猜测并纠正。实验所设计的词性标注过程得到的结果能达到较高的正确率和消岐率,旨在为词性标注的分析实践活动提供方法的指导,提高信息检索的效率。
The Research on the PartofSpeech Tagging for Food Safety Emergency Vocabulary
Student majoring in Information Management and Information System Qi Chen
Tutor Wang Dongbo
Abstract:With the development of information retrieval and Natural Language Processing(NLP), the introduction of Natural Language Processing technology in the field of information retrieval is one of the trends in the development of information retrieval. As the base of Natural Language Processing, partofspeech(POS) tagging can improve the efficiency and effectiveness of information retrieval. With the help of the Chinese segmentation interface of the Chinese lexical analysis system ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System) and aiming at the characteristics of various number of unknown words in web document, this paper is mainly based on the food safety emergency words which have been processed by word segmentation technology to predict and correct the partofspeech of the unknown words in a certain range. The experimental design of the partofspeech tagging process can achieve higher accuracy and disambiguation rate and aims to provide a method for partofspeech tagging in practical application with the due consideration of improving the efficiency of information retrieval.
Key words: Maximum matching word segmentation technology; segmentation ambiguity; unknown words recongnition; PartofSpeech Tagging
引言
近年来,我国食品安全领域频频出现问题,食物中的隐患给人们的生命健康带来了极大的威胁。
Web作为人们获取食品安全相关信息的重要平台,为人们提供海量信息的同时,也暴露信息有效性过低的问题。人们试图利用以搜索引擎为代表的信息检索工具获取信息,但由于网页内容中可供机器利用和理解的特殊语料的缺失,使得这一过程难以实现高效自动化。根据网页信息内容类型的不同,通过适当添加或修改检索词性的方式,能在一定程度上提高用户所捕捉信息的质量。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1909.html

好棒文