食品安全语料的食品安全命名实体识别(附件)
摘要:本文简要介绍了条件随机场模型和隐马尔可夫模型的基本原理。选择了“掷出窗外”资料库中的内容作为语料来源,对食品名称以及造成食品安全问题的因素名称进行了标示,运用相关程序,统计了语料特征,将其分为内部特征和外部特征两大类。内部特征有词语长度、词语内容、词内前后词和是词内前后字;外部特征有词外前后词和是词外前后字。通过对特征的分析,确定词位标记长度。最后选择了特征语料以及评价指标,对条件随机场进行了整体性能测试,并得到了相对满意的结果。
目录
摘要3
关键词3
Abstract3
Key words3
引言4
一、语料的来源和模型的相关理论 4
(一)语料的来源与处理4
(二)隐马尔可夫模型相关理论 4
1.隐马尔可夫模型(HMM)的定义4
2.隐马尔可夫模型(HMM)的组成5
3.隐马尔可夫模型(HMM)的三个基本问题5(三)条件随机场模型相关理论 5
1.条件随机场模型(CRF)的定义5
2.条件随机场模型(CRF)的三个重要环节6
3.条件随机场模型(CRF)的优缺点6
二、隐马尔可夫模型和条件概率模型在信息抽取上的研究现状 6
(一)隐马尔可夫模型 6
1.在分词上的应用6
2.在信息抽取上的应用7
(二)条件随机场模型 7
1.条件随机场模型在信息提取方向的应用7
(1)条件随机场模型7
(2)二维条件随机场模型7
(3)层叠条件随机场7
2. 条件随机场模型在实际应用中存在的问题8
三、特征分析 8
(一)内部特征 8
1.词语长度8
2.词语内容8
3.词内前后词语9
4.词内前后字9
(一)外部特征10
1.词外前后词语 10
2.词外前后字 10
四、实验结果10
(一)词位标记长度的选取10
(二)特征选取及语料标注11
(三)
*好棒文|www.hbsrm.com +Q: ¥3^5`1^9`1^6^0`7^2$
评价指标11
(四)基于条件随机场的整体性能12
五、结论12
致谢13
参考文献13
基于食品安全语料的食品安全命名实体识别
引言
食品安全问题早已成为了社会热点,对国民的健康,国家的经济与制度都有着密切的联系,“掷出窗外”不仅是一个食品安全问题的数据库,更是一个时刻敲响在耳边的警钟。隐马尔可夫模型现在已成功的用于语音识别,行为识别,文字识别以及故障诊断等领域。条件随机场模型近几年来在自然语言处理和图像处理等领域得到了广泛的应用。因此选择了“掷出窗外”资料库中的内容作为语料来源进行标引与分析,并使用其分析结果对模型进行了测试。本文在前人研究的基础上,简单地探讨了使用条件随机场模型与隐马尔科夫模型来识别食品名称及造成食品安全问题的因的性能素,得到了相对满意的成果。
一、语料的来源和模型的相关理论
(一)语料的来源与处理
例如:《24东莞质监:一批次食用植物油产品过氧化值超标》、《1015哈尔滨五家烧烤店被曝出问题 承诺直播工作流程》。
我们将文本文档处理好后,进行了汇总。并分别对其人名、地名、时间、机构名、食品名以及造成食品问题的因素进行了标示。我负责是我是其中的食品名以及造成该食品问题的因素名称。为了标示明显我使用了新闻中不常见的“{ }”进行了标示。
例如:广州市工商局昨日通报称,该局近期委托检验机构对商场、超市、婴幼儿专卖店等场所销售的{婴幼儿配方米粉}进行抽检,发现盼盼婴幼儿配方米粉{理化指标}不合格,不合格项目为致癌物{黄曲霉毒素B1}。该款婴儿配方米粉还同时出现铁、锌和钙等{基本营养成分指标不达标},可能影响婴幼儿生长发育。
标注结束后,将标示内容整理到了Excel表格中并与原数据进行了仔细检查核对得到最后的使用语料。
(二)隐马尔可夫模型相关理论
1.隐马尔可夫模型(HMM)的定义
隐马尔可夫模型(Hidden Markov Model , HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到传播和发展,成为信号处理的一个重要方向,现在已成功的用于语音识别,行为识别,文字识别以及故障诊断等领域。
在马尔可夫模型中,每一个状态代表一个可观察的事件。所以马尔可夫模型有时又称作课时马尔可夫模型(visible Markov model , VMM),这在某种程度上限制了模型的适应性。
HMM包含两部分:一部分是不可观察的用来描述状态转移的马尔科夫链和可观察的一个一般随机过程组成[2]。
在隐马尔可夫模型(HMM)中,我们不知道模型所经过的状态序列,只知道状态的概率函数,也就是说,观察到的事件是状态的随机函数,因此,该模型是一个双重的随机过程。其中,模型的状态转换过程是不可观察的,即隐蔽的,可观察事件的随机过程是隐蔽的状态转换过程的随机函数。
可以用下图1来说明隐马尔可夫模型的基本原理。
图1 HMM图解
2.隐马尔可夫模型(HMM)可由如下几个部分组成:
模型中状态的数目 N(例如n1、n2、n3等等)
从每个状态可输出的不同符号的数目 M (例如m1、m2、m3等等)
初始状态概率分布矩阵 π={πi}
隐含状态转移概率矩阵 A。
观测状态转移概率矩阵 B (英文名为Confusion Matrix,直译为混淆矩阵不太易于从字面理解)。
一般的,一个HMM记为一个五元组λ=(N,M,A,B,π),为了简单,有时也将其记为三元组λ=(A,B,π)。
3.隐马尔可夫模型(HMM)的三个基本问题:
估计问题:已知模型和观察值序列,求观察值序列属于模型的概率,通常该模型使用向后算法来解决。
序列问题:已知模型和观察值序列,求输出观察值序列的最佳状态序列,一般这种此问题可由Viterbi算法来解决。
训练问题或参数估计问题:已知观察值序列和拓扑结构,调整模型参数是的观察值序列在模型下概率最大,该问题可以使用BaumWelch算法来解决。
(三)条件随机场模型相关理论
1. 条件随机场模型(CRF)的定义
条件随机场(Conditional Random Fields, CRFs)最早由Lafferty 等人于2001 年提出的,其模型思想的主要来源是最大熵模型,模型的三个基本问题的解决用到了HMMs 模型中提到的方法如forwardbackward 和Viterbi。近几年来在自然语言处理和图像处理等领域得到了广泛的应用。
我们可以把条件随机场看成是一个无向图模型或马尔可夫随机场,它是一种用来标记和切分序列机构数据的概率化结构模型。言下之意,就是对于给定的输出标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(Y,X)来描述模型[3]。
目录
摘要3
关键词3
Abstract3
Key words3
引言4
一、语料的来源和模型的相关理论 4
(一)语料的来源与处理4
(二)隐马尔可夫模型相关理论 4
1.隐马尔可夫模型(HMM)的定义4
2.隐马尔可夫模型(HMM)的组成5
3.隐马尔可夫模型(HMM)的三个基本问题5(三)条件随机场模型相关理论 5
1.条件随机场模型(CRF)的定义5
2.条件随机场模型(CRF)的三个重要环节6
3.条件随机场模型(CRF)的优缺点6
二、隐马尔可夫模型和条件概率模型在信息抽取上的研究现状 6
(一)隐马尔可夫模型 6
1.在分词上的应用6
2.在信息抽取上的应用7
(二)条件随机场模型 7
1.条件随机场模型在信息提取方向的应用7
(1)条件随机场模型7
(2)二维条件随机场模型7
(3)层叠条件随机场7
2. 条件随机场模型在实际应用中存在的问题8
三、特征分析 8
(一)内部特征 8
1.词语长度8
2.词语内容8
3.词内前后词语9
4.词内前后字9
(一)外部特征10
1.词外前后词语 10
2.词外前后字 10
四、实验结果10
(一)词位标记长度的选取10
(二)特征选取及语料标注11
(三)
*好棒文|www.hbsrm.com +Q: ¥3^5`1^9`1^6^0`7^2$
评价指标11
(四)基于条件随机场的整体性能12
五、结论12
致谢13
参考文献13
基于食品安全语料的食品安全命名实体识别
引言
食品安全问题早已成为了社会热点,对国民的健康,国家的经济与制度都有着密切的联系,“掷出窗外”不仅是一个食品安全问题的数据库,更是一个时刻敲响在耳边的警钟。隐马尔可夫模型现在已成功的用于语音识别,行为识别,文字识别以及故障诊断等领域。条件随机场模型近几年来在自然语言处理和图像处理等领域得到了广泛的应用。因此选择了“掷出窗外”资料库中的内容作为语料来源进行标引与分析,并使用其分析结果对模型进行了测试。本文在前人研究的基础上,简单地探讨了使用条件随机场模型与隐马尔科夫模型来识别食品名称及造成食品安全问题的因的性能素,得到了相对满意的成果。
一、语料的来源和模型的相关理论
(一)语料的来源与处理
例如:《24东莞质监:一批次食用植物油产品过氧化值超标》、《1015哈尔滨五家烧烤店被曝出问题 承诺直播工作流程》。
我们将文本文档处理好后,进行了汇总。并分别对其人名、地名、时间、机构名、食品名以及造成食品问题的因素进行了标示。我负责是我是其中的食品名以及造成该食品问题的因素名称。为了标示明显我使用了新闻中不常见的“{ }”进行了标示。
例如:广州市工商局昨日通报称,该局近期委托检验机构对商场、超市、婴幼儿专卖店等场所销售的{婴幼儿配方米粉}进行抽检,发现盼盼婴幼儿配方米粉{理化指标}不合格,不合格项目为致癌物{黄曲霉毒素B1}。该款婴儿配方米粉还同时出现铁、锌和钙等{基本营养成分指标不达标},可能影响婴幼儿生长发育。
标注结束后,将标示内容整理到了Excel表格中并与原数据进行了仔细检查核对得到最后的使用语料。
(二)隐马尔可夫模型相关理论
1.隐马尔可夫模型(HMM)的定义
隐马尔可夫模型(Hidden Markov Model , HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到传播和发展,成为信号处理的一个重要方向,现在已成功的用于语音识别,行为识别,文字识别以及故障诊断等领域。
在马尔可夫模型中,每一个状态代表一个可观察的事件。所以马尔可夫模型有时又称作课时马尔可夫模型(visible Markov model , VMM),这在某种程度上限制了模型的适应性。
HMM包含两部分:一部分是不可观察的用来描述状态转移的马尔科夫链和可观察的一个一般随机过程组成[2]。
在隐马尔可夫模型(HMM)中,我们不知道模型所经过的状态序列,只知道状态的概率函数,也就是说,观察到的事件是状态的随机函数,因此,该模型是一个双重的随机过程。其中,模型的状态转换过程是不可观察的,即隐蔽的,可观察事件的随机过程是隐蔽的状态转换过程的随机函数。
可以用下图1来说明隐马尔可夫模型的基本原理。
图1 HMM图解
2.隐马尔可夫模型(HMM)可由如下几个部分组成:
模型中状态的数目 N(例如n1、n2、n3等等)
从每个状态可输出的不同符号的数目 M (例如m1、m2、m3等等)
初始状态概率分布矩阵 π={πi}
隐含状态转移概率矩阵 A。
观测状态转移概率矩阵 B (英文名为Confusion Matrix,直译为混淆矩阵不太易于从字面理解)。
一般的,一个HMM记为一个五元组λ=(N,M,A,B,π),为了简单,有时也将其记为三元组λ=(A,B,π)。
3.隐马尔可夫模型(HMM)的三个基本问题:
估计问题:已知模型和观察值序列,求观察值序列属于模型的概率,通常该模型使用向后算法来解决。
序列问题:已知模型和观察值序列,求输出观察值序列的最佳状态序列,一般这种此问题可由Viterbi算法来解决。
训练问题或参数估计问题:已知观察值序列和拓扑结构,调整模型参数是的观察值序列在模型下概率最大,该问题可以使用BaumWelch算法来解决。
(三)条件随机场模型相关理论
1. 条件随机场模型(CRF)的定义
条件随机场(Conditional Random Fields, CRFs)最早由Lafferty 等人于2001 年提出的,其模型思想的主要来源是最大熵模型,模型的三个基本问题的解决用到了HMMs 模型中提到的方法如forwardbackward 和Viterbi。近几年来在自然语言处理和图像处理等领域得到了广泛的应用。
我们可以把条件随机场看成是一个无向图模型或马尔可夫随机场,它是一种用来标记和切分序列机构数据的概率化结构模型。言下之意,就是对于给定的输出标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y|X),而不是联合概率分布P(Y,X)来描述模型[3]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1050.html