恐怖袭击事件时间与地点统计及实体识别研究
目前国际恐怖袭击事件发生愈来愈频繁,手段也愈来愈残忍,各种恐怖分子在世界各地制造混乱,引起国际社会动荡不安。命名实体的识别研究已作为自然语言处理中重要组成部分。对恐怖袭击事件新闻中的时间和地点命名实体的识别可以推测恐怖主义发展进程以及高发地带。本论文以2001年-2015年的GTD(全球恐怖主义研究数据库)恐怖袭击新闻为语料,运用条件随机域(英文翻译为Conditional Random Fields,CRF)对恐怖袭击事件中国家命名实体自动识别做了一些研究,最终经过十次交叉训练后,恐怖袭击事件国家命名实体的平均召回率为96.36%,平均查准率为99.97%,平均F值为0.9813。然后对得到的时间和地点命名实体进行统计分析,总结出恐怖袭击的一般规律。
目录
摘要1
关键词1
Abstract1
Key words1引言2
一、相关研究综述2
(一)命名实体研究综述2
1.主要技术方法 2
(1)基于规则和词典的方法2
(2)基于统计的方法3
(3)混合方法3
二、CRF理论及应用4
(一)CRF介绍4
(二)实验步骤4
1.实验结构4
2.实验设计4
(1)语料来源 4
(2)语料预处理 4
(3)特征模板的选取 5
(4)训练语料 5
(5)测试语料 5
(三)结果评测6
(四)CRF优缺点7
三、GTD语料统计研究7
(一)GTD背景简介7
(二)GTD语料分析7 1.恐怖袭击事件时间分析7
(1)以年份进行统计 7
(2)以月份进行统计 8
(3)以日进行统计 9
2.恐怖袭击事件地点分析9
(1)以大洲为划分 10
(2)以国家为划分 11
(3)以具体城市为划分 12
3.恐怖袭击事件时间地点关联分析12
(1)年份与国家关联 12
(2)年 *好棒文|www.hbsrm.com +Q: @351916072@
份与城市关联 14
四、结论15
(一)CRF模型总结15
(二)GTD语料总结15
致谢16
参考文献17
图1 20012015年恐怖袭击事件频次折线图8
图2 15年中每月恐怖袭击事件频次条形图9
图3 15年中每日恐怖袭击事件频次条形图10
图4 恐怖袭击事件各洲频次条形图11
图5 恐怖袭击事件前十五国家频次条形图11
图6 恐怖袭击事件前五位城市频次条形图12
图7 恐怖袭击事件年份与国家关联折线图13
图8 恐怖袭击事件年份与城市关联折线图14
表1 CRF国家命名实体识别指标表 6
表 2 20012015年恐怖袭击事件频次表7
表3 15年中每月恐怖袭击事件频次表8
表4 15年中每日恐怖袭击事件频次表9
表 5 各大洲恐怖袭击事件频次表 10表 6 恐怖袭击事件国家频次表11表 7 恐怖袭击事件前五位城市频次表12
表8恐怖袭击事件年份与国家关联统计表12
表 9每年受袭击国家前三名统计表13
表10恐怖袭击事件年份与城市关联统计表14
表11每年受袭击城市前三名统计表15
恐怖袭击事件时间与地点统计及实体识别研究
引言
引言:从20世纪90年代至今,全球范围内的恐怖活动发生频率逐渐攀升,以911为典型代表的一系列恐怖袭击事件对世界各个国家地区的社会稳定、经济发展、人民安全等造成了严重的冲击和影响并阻碍其经济社会发展 。恐怖袭击已经威胁到世界稳定和地区安全,引起世界各国的高度重视。随着GTD记录的数据规模的越来越庞大,有效理解并挖掘出恐怖袭击事件中隐含的信息是很有必要的问题,于是我们借助CRF模型,先通过部分语料的训练再自动识别出恐怖袭击事件新闻语料中特定的命名实体。
命名实体,指的其实是文本中包含的人名、地名、机构名、日期及时间等以名称为标识的具有特殊意义的实体,本文研究的时间和地点命名实体就是其中的一个子集,是自然语言处理中基础性工作之一,也是机器学习、机器翻译以及信息检索等应用的基础组成部分,所以,命名实体自动识别研究具有不可忽略的实践意义以及理论价值。本文以全球恐怖主义研究数据库(英文翻译为Global Terrorism Database,以下简称GTD)2001年2015年恐怖袭击事件下载的语料为基础,结合条件随机域模型实现了英文语料中恐怖袭击事件时间以及恐怖袭击事件地点的自动识别,最后对恐怖袭击事件时间和地点的进行可视化,为今后恐怖袭击事件态势的发展提供了一定依据。
一、 相关研究综述
(一)命名实体识别研究综述
命名实体是自然语言中最根本的组成元素,它能使文本内容更容易理解。国外最早开始研究命名实体识别问题。在1991年的第7届IEEE人工智能应用会议上,Rau第一次通过算法和人工编制规则的方式发表了研究“抽取和识别公司名称”的相关论文,实现了自动识别和抽取公司名称。1996年的第六届信息理解会议(MUC 6)将命名实体评测作为信息抽取的组成部分,命名实体识别已经开始受到重视。
对于英文命名实体的识别来说,其识别难度相对来中文命名实体识别来说较低,因为我们只需关注单词本身的意义而不用再去考虑分词。根据MUC以及ACE的评估结果显示测试结果的查准率、召回率以及F1值目前大部分都大约在90%上下。
1.主要技术方法
命名实体识别运用的技术方法主要有如下三种:基于规则和词典的方法、基于统计的方法、二者混合的方法。
(1)基于规则和词典的方法
基于规则的方法大多都是语言学专家们选用特征包括指示词、位置词、关键字等方法,人工编制规则模板,以字符串和模板匹配为主要方式,但是这种系统大多取决于知识库和词典的构建。
(2)基于统计的方法
基于统计的方法需要先用手工标注的语料进行训练,手工标注语料不仅耗时少,而且对语言学知识没有太高要求。此方法是现在主要研究方法,例如在CoNLL 2003会议中,16个参赛系统全部使用基于统计的方法。在新的语料库使用时可以少做或不做修改,而只需用新语料重新训练。 条件随机场(CRF)、隐马尔可夫模型、支持向量机、最大熵等这些都是基于统计的方法。
目录
摘要1
关键词1
Abstract1
Key words1引言2
一、相关研究综述2
(一)命名实体研究综述2
1.主要技术方法 2
(1)基于规则和词典的方法2
(2)基于统计的方法3
(3)混合方法3
二、CRF理论及应用4
(一)CRF介绍4
(二)实验步骤4
1.实验结构4
2.实验设计4
(1)语料来源 4
(2)语料预处理 4
(3)特征模板的选取 5
(4)训练语料 5
(5)测试语料 5
(三)结果评测6
(四)CRF优缺点7
三、GTD语料统计研究7
(一)GTD背景简介7
(二)GTD语料分析7 1.恐怖袭击事件时间分析7
(1)以年份进行统计 7
(2)以月份进行统计 8
(3)以日进行统计 9
2.恐怖袭击事件地点分析9
(1)以大洲为划分 10
(2)以国家为划分 11
(3)以具体城市为划分 12
3.恐怖袭击事件时间地点关联分析12
(1)年份与国家关联 12
(2)年 *好棒文|www.hbsrm.com +Q: @351916072@
份与城市关联 14
四、结论15
(一)CRF模型总结15
(二)GTD语料总结15
致谢16
参考文献17
图1 20012015年恐怖袭击事件频次折线图8
图2 15年中每月恐怖袭击事件频次条形图9
图3 15年中每日恐怖袭击事件频次条形图10
图4 恐怖袭击事件各洲频次条形图11
图5 恐怖袭击事件前十五国家频次条形图11
图6 恐怖袭击事件前五位城市频次条形图12
图7 恐怖袭击事件年份与国家关联折线图13
图8 恐怖袭击事件年份与城市关联折线图14
表1 CRF国家命名实体识别指标表 6
表 2 20012015年恐怖袭击事件频次表7
表3 15年中每月恐怖袭击事件频次表8
表4 15年中每日恐怖袭击事件频次表9
表 5 各大洲恐怖袭击事件频次表 10表 6 恐怖袭击事件国家频次表11表 7 恐怖袭击事件前五位城市频次表12
表8恐怖袭击事件年份与国家关联统计表12
表 9每年受袭击国家前三名统计表13
表10恐怖袭击事件年份与城市关联统计表14
表11每年受袭击城市前三名统计表15
恐怖袭击事件时间与地点统计及实体识别研究
引言
引言:从20世纪90年代至今,全球范围内的恐怖活动发生频率逐渐攀升,以911为典型代表的一系列恐怖袭击事件对世界各个国家地区的社会稳定、经济发展、人民安全等造成了严重的冲击和影响并阻碍其经济社会发展 。恐怖袭击已经威胁到世界稳定和地区安全,引起世界各国的高度重视。随着GTD记录的数据规模的越来越庞大,有效理解并挖掘出恐怖袭击事件中隐含的信息是很有必要的问题,于是我们借助CRF模型,先通过部分语料的训练再自动识别出恐怖袭击事件新闻语料中特定的命名实体。
命名实体,指的其实是文本中包含的人名、地名、机构名、日期及时间等以名称为标识的具有特殊意义的实体,本文研究的时间和地点命名实体就是其中的一个子集,是自然语言处理中基础性工作之一,也是机器学习、机器翻译以及信息检索等应用的基础组成部分,所以,命名实体自动识别研究具有不可忽略的实践意义以及理论价值。本文以全球恐怖主义研究数据库(英文翻译为Global Terrorism Database,以下简称GTD)2001年2015年恐怖袭击事件下载的语料为基础,结合条件随机域模型实现了英文语料中恐怖袭击事件时间以及恐怖袭击事件地点的自动识别,最后对恐怖袭击事件时间和地点的进行可视化,为今后恐怖袭击事件态势的发展提供了一定依据。
一、 相关研究综述
(一)命名实体识别研究综述
命名实体是自然语言中最根本的组成元素,它能使文本内容更容易理解。国外最早开始研究命名实体识别问题。在1991年的第7届IEEE人工智能应用会议上,Rau第一次通过算法和人工编制规则的方式发表了研究“抽取和识别公司名称”的相关论文,实现了自动识别和抽取公司名称。1996年的第六届信息理解会议(MUC 6)将命名实体评测作为信息抽取的组成部分,命名实体识别已经开始受到重视。
对于英文命名实体的识别来说,其识别难度相对来中文命名实体识别来说较低,因为我们只需关注单词本身的意义而不用再去考虑分词。根据MUC以及ACE的评估结果显示测试结果的查准率、召回率以及F1值目前大部分都大约在90%上下。
1.主要技术方法
命名实体识别运用的技术方法主要有如下三种:基于规则和词典的方法、基于统计的方法、二者混合的方法。
(1)基于规则和词典的方法
基于规则的方法大多都是语言学专家们选用特征包括指示词、位置词、关键字等方法,人工编制规则模板,以字符串和模板匹配为主要方式,但是这种系统大多取决于知识库和词典的构建。
(2)基于统计的方法
基于统计的方法需要先用手工标注的语料进行训练,手工标注语料不仅耗时少,而且对语言学知识没有太高要求。此方法是现在主要研究方法,例如在CoNLL 2003会议中,16个参赛系统全部使用基于统计的方法。在新的语料库使用时可以少做或不做修改,而只需用新语料重新训练。 条件随机场(CRF)、隐马尔可夫模型、支持向量机、最大熵等这些都是基于统计的方法。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/556.html