恐怖事件语料库的袭击工具和方式自动识别研究
当前恐怖主义已经从一些国家和局部地区,扩展到全球的每一角落,动荡的局势和生活给人民带来了饥饿和贫困,阻碍了文明和发展的前进。全球恐怖主义数据库作为权威的统计恐怖袭击事件的数据库,为针对恐怖袭击事件的研究提供了科学的数据。随着计算机技术的发展,通过抽取相关语料构建语料库,使用自动识别技术将恐怖事件记录中的袭击工具及袭击方式作为命名实体进行识别研究,从而掌握恐怖袭击事件的历史和发展态势,为相关工作者对于恐怖袭击事件的研究提供新的思路。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
一、研究综述 2
(一)恐怖事件的研究 2
(二)语料库的构建 2
(三)命名实体的识别 2
1.命名实体识别概述 2
2.国外命名实体研究发展 3
3.国内命名实体研究发展 3
(四) 条件随机场的研究 3
二、 全球恐怖主义数据 3
(一)数据来源 3
(二)袭击方式及武器类型的统计 5
1. 袭击方式 5
2. 武器分析 8
表6 袭击事件使用的武器 8
(三)自杀式袭击 8
(四)袭击成功率 9
三、 条件随机场 10
(一) 数据来源 10
(二) 数据预处理及构建语料库 10
(三) 自动识别模型的构建及测评 10
四、结语 11
致谢 12
参考文献 13
表 1 “一带一路”沿线国家
表 2 2001年至2015年恐怖袭击记录
表 3 2001年至2015年间各袭击事件采用袭击方式总计
表 4 2001年至2015年间一级袭击方式
表 5 袭击事件使用的武器类型
表 6 袭击事件使用的武器总计
表 7 2001年至2015年自杀式袭击事件发生次数
表 8 2001年至2015年袭击成功率与失败率
*好棒文|www.hbsrm.com +Q: ¥351916072¥
表 9 基于条件随机场的恐怖事件袭击方式的自动识别模型的测评数值
表 10 基于条件随机场的恐怖事件袭击工具的自动识别模型的测评数值
图 1 2001年至2015年间恐怖袭击事件发生次数变化趋势
图 2 2001年至2015年自杀式袭击事件数趋势图
图 3 2001年至2015年袭击成功率与失败率走势图
基于恐怖事件语料库的袭击工具和方式自动识别研究
引言
和平、发展与合作是当今时代的主旋律,然而仍有不和谐的音符出现,各类恐怖组织和恐怖分子实施的暴力恐怖活动破坏了世界和平。2013年习近平主席提出共建“一带一路”的倡议,历经三年,“一带一路”由简单的构想到逐步实践,将惠及沿线各国人民甚至全球,地位举足轻重。但是,“一带一路”的实施与发展也面临着很大的困难,恐怖主义就是其面临的威胁之一。恐怖组织和恐怖分子实施的行动不仅会直接造成受害国的人员经济损失,更会破坏国家的安定环境引起恐慌,因此打击恐怖主义维护和平安定的秩序成为当务之急。恐怖主义的袭击方式及武器类型的研究对预防和打击恐怖主义具有重要的意义。使用计算机技术,借助全球恐怖主义数据库中科学的数据,选取新闻文本构成语料库,对恐怖事件的工具和方式进行科学的识别和研究,为研究人员提供相关信息做参考,并为决策者提供防范治理的方向。
一、研究综述
(一)恐怖事件的研究
恐怖主义在复杂多元的政治、社会环境中滋生,且由每年全球都会发生恐怖袭击事件上千起,如2001年美国“911”事件、2015年法国巴黎枪击爆炸事件以及2016年美国的奥兰多酒吧枪击案都造成了重大人员伤亡。随着国际政治形势的不断变化,国际安全局势持续紧张,恐怖主义事件频频发生,恐怖组织更是公开叫板,血腥暴力被用作实现政治图谋的工具,对社会造成了极其恶劣的影响和危害[1]。
杨赞等[2]针对近年来国际恐怖主义的表现提炼了出一些新的特点:国际恐怖主义向世界蔓延、恐怖袭击的手段更加残忍。主要原因则是有民族、宗教、霸权主义思维作怪及极端政治势力作祟[3]。这些因素使他们具有信誓旦旦的对民众进行洗脑,不仅有越来越多的西方人主动请缨加入他们所谓的“圣战”,更有尚未心智成熟的儿童被利用成为“童子军”,为他们的邪恶预谋流血牺牲。
(二)语料库的构建
语料库的技术自20世纪60年代开始迅速发展,同时也带动了其领域相关技术的发展。最初语料库的研究建设工作只在少数国家进行。如今,许多国家都开始着手于语料库的研究和开发,不仅有学术机构而且相关企业也积极的参与到语料库的建设及应用中。目前,众多各大规模语料库都已经建设完成,新的语料库的研究与发展都在有序的进行中。语料库的应用领域也越来越广泛,在自然语言处理等诸多领域中也开始逐渐发挥自己的作用[4]。
自90年代开始,自然语言处理开始着手于大规模真实文本的处理及研究,以其为基础的语料库在语言研究和知识获取的应用受到了高度重视,并且得到更深的发展和更广泛的应用。同时,针对汉语语料库的建设和研究开始得到重视和发展[5],从百万级发展到千万级和上亿级,其规模越来越大,语料的加工深度和其对应的加工技术的发展程度也不尽相同。随着科学发展的进步,更高效优质的统计语言模型也被研究出来,推动着自然语言处理系统的不断实用化[6]。
(三)命名实体的识别
1.命名实体识别概述
针对恐怖主义袭击事件中的袭击工具及袭击方式进行研究,即利用命名实体的识别研究。在非结构化的文本中,对命名实体进行识别的主要有基于规则、基于统计及规则和统计相结合的方法,由于在处理大规模语料中表现的优异性能使基于统计的方法成为主流方法。在现有的统计方法中,有监督方法使用人工标注的训练语料训练模型来抽取命名实体虽然过分依赖于标注语料,但表现出的性能最好[7]。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
一、研究综述 2
(一)恐怖事件的研究 2
(二)语料库的构建 2
(三)命名实体的识别 2
1.命名实体识别概述 2
2.国外命名实体研究发展 3
3.国内命名实体研究发展 3
(四) 条件随机场的研究 3
二、 全球恐怖主义数据 3
(一)数据来源 3
(二)袭击方式及武器类型的统计 5
1. 袭击方式 5
2. 武器分析 8
表6 袭击事件使用的武器 8
(三)自杀式袭击 8
(四)袭击成功率 9
三、 条件随机场 10
(一) 数据来源 10
(二) 数据预处理及构建语料库 10
(三) 自动识别模型的构建及测评 10
四、结语 11
致谢 12
参考文献 13
表 1 “一带一路”沿线国家
表 2 2001年至2015年恐怖袭击记录
表 3 2001年至2015年间各袭击事件采用袭击方式总计
表 4 2001年至2015年间一级袭击方式
表 5 袭击事件使用的武器类型
表 6 袭击事件使用的武器总计
表 7 2001年至2015年自杀式袭击事件发生次数
表 8 2001年至2015年袭击成功率与失败率
*好棒文|www.hbsrm.com +Q: ¥351916072¥
表 9 基于条件随机场的恐怖事件袭击方式的自动识别模型的测评数值
表 10 基于条件随机场的恐怖事件袭击工具的自动识别模型的测评数值
图 1 2001年至2015年间恐怖袭击事件发生次数变化趋势
图 2 2001年至2015年自杀式袭击事件数趋势图
图 3 2001年至2015年袭击成功率与失败率走势图
基于恐怖事件语料库的袭击工具和方式自动识别研究
引言
和平、发展与合作是当今时代的主旋律,然而仍有不和谐的音符出现,各类恐怖组织和恐怖分子实施的暴力恐怖活动破坏了世界和平。2013年习近平主席提出共建“一带一路”的倡议,历经三年,“一带一路”由简单的构想到逐步实践,将惠及沿线各国人民甚至全球,地位举足轻重。但是,“一带一路”的实施与发展也面临着很大的困难,恐怖主义就是其面临的威胁之一。恐怖组织和恐怖分子实施的行动不仅会直接造成受害国的人员经济损失,更会破坏国家的安定环境引起恐慌,因此打击恐怖主义维护和平安定的秩序成为当务之急。恐怖主义的袭击方式及武器类型的研究对预防和打击恐怖主义具有重要的意义。使用计算机技术,借助全球恐怖主义数据库中科学的数据,选取新闻文本构成语料库,对恐怖事件的工具和方式进行科学的识别和研究,为研究人员提供相关信息做参考,并为决策者提供防范治理的方向。
一、研究综述
(一)恐怖事件的研究
恐怖主义在复杂多元的政治、社会环境中滋生,且由每年全球都会发生恐怖袭击事件上千起,如2001年美国“911”事件、2015年法国巴黎枪击爆炸事件以及2016年美国的奥兰多酒吧枪击案都造成了重大人员伤亡。随着国际政治形势的不断变化,国际安全局势持续紧张,恐怖主义事件频频发生,恐怖组织更是公开叫板,血腥暴力被用作实现政治图谋的工具,对社会造成了极其恶劣的影响和危害[1]。
杨赞等[2]针对近年来国际恐怖主义的表现提炼了出一些新的特点:国际恐怖主义向世界蔓延、恐怖袭击的手段更加残忍。主要原因则是有民族、宗教、霸权主义思维作怪及极端政治势力作祟[3]。这些因素使他们具有信誓旦旦的对民众进行洗脑,不仅有越来越多的西方人主动请缨加入他们所谓的“圣战”,更有尚未心智成熟的儿童被利用成为“童子军”,为他们的邪恶预谋流血牺牲。
(二)语料库的构建
语料库的技术自20世纪60年代开始迅速发展,同时也带动了其领域相关技术的发展。最初语料库的研究建设工作只在少数国家进行。如今,许多国家都开始着手于语料库的研究和开发,不仅有学术机构而且相关企业也积极的参与到语料库的建设及应用中。目前,众多各大规模语料库都已经建设完成,新的语料库的研究与发展都在有序的进行中。语料库的应用领域也越来越广泛,在自然语言处理等诸多领域中也开始逐渐发挥自己的作用[4]。
自90年代开始,自然语言处理开始着手于大规模真实文本的处理及研究,以其为基础的语料库在语言研究和知识获取的应用受到了高度重视,并且得到更深的发展和更广泛的应用。同时,针对汉语语料库的建设和研究开始得到重视和发展[5],从百万级发展到千万级和上亿级,其规模越来越大,语料的加工深度和其对应的加工技术的发展程度也不尽相同。随着科学发展的进步,更高效优质的统计语言模型也被研究出来,推动着自然语言处理系统的不断实用化[6]。
(三)命名实体的识别
1.命名实体识别概述
针对恐怖主义袭击事件中的袭击工具及袭击方式进行研究,即利用命名实体的识别研究。在非结构化的文本中,对命名实体进行识别的主要有基于规则、基于统计及规则和统计相结合的方法,由于在处理大规模语料中表现的优异性能使基于统计的方法成为主流方法。在现有的统计方法中,有监督方法使用人工标注的训练语料训练模型来抽取命名实体虽然过分依赖于标注语料,但表现出的性能最好[7]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/557.html