恐怖袭击语料库的攻击对象及损害事件抽取研究
随着世界范围内恐怖袭击事件事件的频繁发生,公共安全领域越来越受到人们的重视。近年来,,恐怖袭击事件在全球范围内呈现多发状态,恐怖主义分子利用各种残酷手段,进行暴力袭击,滥杀无辜,给人们带来灾难。目前来说,打击恐怖主义更加复杂,打击恐怖主义更加艰巨。因此,为了更好的打击恐怖主义,分析恐怖主义已经成为亟待解决的课题。基于恐怖袭击语料库的攻击对象及损害事件的抽取可以为恐怖袭击研究提供帮助。信息抽取的重要部分之一就是事件抽取,事件抽取研究的研究将在未来大放光彩。
目录
摘要1
关键词1
Abstract1
Key words1
引言2
一、综述2
(一)恐怖袭击事件的研究现状2
(二)语料库的构建研究2
(三)事件抽取研究现状 2
1、事件及事件抽取含义2
2、元事件抽取 3
3、主题事件抽取3
(四)事件抽取面临的挑战及研究趋势 3
二、基于恐怖袭击数据库的统计分析4
(一)GTD简介4
1.GTD数据库简介 4
2.数据收集及整理方式 4
(二)基于GTD数据库的统计4
1.目标类型4
2.目标或受害者国籍5
3.死亡人数5
4.受伤人数6
5.劫持绑架情况6
6、财产损失情况 10
三、基于恐怖袭击语料库的事件抽取11
(一)CRF简介11
(二)利用CRF抽取攻击对象11
1、获取并处理数据 11
2、对语料进行标注 11
3、训练CRF模型12
4、测试模板 12
5、交叉验证 12
6、结果及其评价 12
四、结语13
致谢14
参考文献14
基于恐怖袭击语料库的攻击对象及损害事件 抽取研究
引言
引言
GTD(Global Terrorism Database),其 *好棒文|www.hbsrm.com +Q: #351916072#
全称为全球恐怖主义研究数据库。这是一个基于开放源代码的数据库网站,这里不仅记录了从1970年至今世界各地的恐怖事件信息,而且还不断的更新各种最近发生恐怖事件。GTD的存在为研究恐怖主义的活动提供了极大的便利,研究人员可以利用数据库来分析以往恐怖袭击的特点,对未来趋势做出预测。除此之外,事件抽取模型也能助研究人员一臂之力。基于CRF算法的事件抽取模型能帮助研究人员从浩如烟海的信息中,快速的提取到所需要的信息。
综述
(一)恐怖袭击事件的研究现状
恐怖主义是一种具有复杂性、政治性、社会性的现象。现在,恐怖主义已经成为局部乃至全球的不稳定因素,极大的威胁着地区国际和平 [1]。
不同于自然灾害,恐怖袭击的特点是智能化,除其他事项外,,除此之外,恐怖袭击还具有随时间和空间的变化而变化的特点。因此,当面对恐怖袭击,既要进一步获得可靠的数据,科学的方法和手段应用于定量或定性分析,以得出科学的结论,以便作出进一步的合理决定。目前,国际上的已经有组织有计划的建立与恐怖主义有关的数据库。根据现有的恐怖袭击数据,搜索恐怖主义的基本模式,并加以分析 ,然后得出了科学的结论。
国内恐怖主义和跨国恐怖主义都给政府和公民带来了挑战。只有研究恐怖袭击,了解恐怖组织的特点,掌握恐怖袭击的动机,才能制定有效的反恐战略。就现有的研究现状而言,已经有国内的学者做了大量工作。然而,这些研究却缺少对恐怖主义的理论性解释,而且,关于恐怖主义的数据库也未曾建立。与之相对的是,国外的学者已经建立了关于恐怖袭击的数据库,并且对恐怖主义的研究比较深入,在恐怖主义的预测和评估方面取得了较好的进展。
(二)语料库的构建研究
随着计算机技术和自然语言处理技术的日益发展,语料库(Corpus)在各个领域的作用已经日益得到重视。语料库是为语言研究,而收集并组织起来的自然、真实、自然语言作品(书面和口头)的集合[2]。现在的语料库多用计算机作为载体,可以用计算机程序检索。
在语料库的建设工作中,必须遵循国内外通用的信息领域的加工方法,需要采取机器建设和人工校对相结合的方式,同时,为了提高校对和加工的质量,还必须利用各种软件工具,如:切分、校对、质量检查等。为了提高语料库的质量,还有一点需要注意到的便是词语的颗粒度,必须专门建立合适、恰当的分词词表。
(三)事件抽取研究现状
1、事件及事件抽取含义
事件在不同的领域有不同的定义,目前还没有统一的定义。在 IE ( Information Extraction) 中,事件指的是在某个特定的时间段和地域内发生的,由一个或多个动作组成的一件事情[3]。
信息抽取有多种类型,其中,事件抽取是其中一种。事件抽取是从自然语言文本中提取事件信息,以结构化的形式描述信息,并最终向用户显示。主要从文本中抽取预先定义好的各种事件类型事件实例及其论元[4]。
2、元事件抽取
目前,元事件抽取一直是事件抽取的热点。元事件的提取主要有机器学习和模式匹配两种方法。其中,尽管模式匹配可以在某些特定领域取得较好的性能,但其缺点是移植性差。相比之下,与领域无关的机器学习并不需要太多的指令,因此系统的转移性会比较好[5]。
机器学习方法需要触发词来进行事件探测。机器学习模型根据收录在词典里的触发词来学习,需要大量的语料库。也就是说,虽然机器学习的方法不依赖语料的内容和形式,但是却需要大量的语料库,否则就会导致学习程度不足,不能取得很好的效果。但是,就目前来说,现阶段的语料库规模恐怕难以满足应用,手工标注需要时间和精力[6]。
3、主题事件抽取
元事件提取的一个主要限制是,它仅在句子级别提取[7]。然而,主题事件不能只存在于句子中,通常分散在一个或多个文档中。因此,事件抽取的关键主题是一个主体需要确定文档集合的地方,并利用一定的规则,基于文本或语篇理解来交叉技术,将这些零散的片段进行整合。在这项研究中,研究人员经常使用时间框架或本体来表示时间主题的基本组成部分和组件之间的相关性。
基于事件框架的主题事件抽取,顾名思义,便是利用构建结构化的事件框架来实现事件抽取,从而表现出事件的方方面面。同时,事物的侧面信息可以在语义上进行分类。因此,这里指的事件框架实际上是一种分类体系,它用来分割同一个时间的方方面面的信息[8]。
目录
摘要1
关键词1
Abstract1
Key words1
引言2
一、综述2
(一)恐怖袭击事件的研究现状2
(二)语料库的构建研究2
(三)事件抽取研究现状 2
1、事件及事件抽取含义2
2、元事件抽取 3
3、主题事件抽取3
(四)事件抽取面临的挑战及研究趋势 3
二、基于恐怖袭击数据库的统计分析4
(一)GTD简介4
1.GTD数据库简介 4
2.数据收集及整理方式 4
(二)基于GTD数据库的统计4
1.目标类型4
2.目标或受害者国籍5
3.死亡人数5
4.受伤人数6
5.劫持绑架情况6
6、财产损失情况 10
三、基于恐怖袭击语料库的事件抽取11
(一)CRF简介11
(二)利用CRF抽取攻击对象11
1、获取并处理数据 11
2、对语料进行标注 11
3、训练CRF模型12
4、测试模板 12
5、交叉验证 12
6、结果及其评价 12
四、结语13
致谢14
参考文献14
基于恐怖袭击语料库的攻击对象及损害事件 抽取研究
引言
引言
GTD(Global Terrorism Database),其 *好棒文|www.hbsrm.com +Q: #351916072#
全称为全球恐怖主义研究数据库。这是一个基于开放源代码的数据库网站,这里不仅记录了从1970年至今世界各地的恐怖事件信息,而且还不断的更新各种最近发生恐怖事件。GTD的存在为研究恐怖主义的活动提供了极大的便利,研究人员可以利用数据库来分析以往恐怖袭击的特点,对未来趋势做出预测。除此之外,事件抽取模型也能助研究人员一臂之力。基于CRF算法的事件抽取模型能帮助研究人员从浩如烟海的信息中,快速的提取到所需要的信息。
综述
(一)恐怖袭击事件的研究现状
恐怖主义是一种具有复杂性、政治性、社会性的现象。现在,恐怖主义已经成为局部乃至全球的不稳定因素,极大的威胁着地区国际和平 [1]。
不同于自然灾害,恐怖袭击的特点是智能化,除其他事项外,,除此之外,恐怖袭击还具有随时间和空间的变化而变化的特点。因此,当面对恐怖袭击,既要进一步获得可靠的数据,科学的方法和手段应用于定量或定性分析,以得出科学的结论,以便作出进一步的合理决定。目前,国际上的已经有组织有计划的建立与恐怖主义有关的数据库。根据现有的恐怖袭击数据,搜索恐怖主义的基本模式,并加以分析 ,然后得出了科学的结论。
国内恐怖主义和跨国恐怖主义都给政府和公民带来了挑战。只有研究恐怖袭击,了解恐怖组织的特点,掌握恐怖袭击的动机,才能制定有效的反恐战略。就现有的研究现状而言,已经有国内的学者做了大量工作。然而,这些研究却缺少对恐怖主义的理论性解释,而且,关于恐怖主义的数据库也未曾建立。与之相对的是,国外的学者已经建立了关于恐怖袭击的数据库,并且对恐怖主义的研究比较深入,在恐怖主义的预测和评估方面取得了较好的进展。
(二)语料库的构建研究
随着计算机技术和自然语言处理技术的日益发展,语料库(Corpus)在各个领域的作用已经日益得到重视。语料库是为语言研究,而收集并组织起来的自然、真实、自然语言作品(书面和口头)的集合[2]。现在的语料库多用计算机作为载体,可以用计算机程序检索。
在语料库的建设工作中,必须遵循国内外通用的信息领域的加工方法,需要采取机器建设和人工校对相结合的方式,同时,为了提高校对和加工的质量,还必须利用各种软件工具,如:切分、校对、质量检查等。为了提高语料库的质量,还有一点需要注意到的便是词语的颗粒度,必须专门建立合适、恰当的分词词表。
(三)事件抽取研究现状
1、事件及事件抽取含义
事件在不同的领域有不同的定义,目前还没有统一的定义。在 IE ( Information Extraction) 中,事件指的是在某个特定的时间段和地域内发生的,由一个或多个动作组成的一件事情[3]。
信息抽取有多种类型,其中,事件抽取是其中一种。事件抽取是从自然语言文本中提取事件信息,以结构化的形式描述信息,并最终向用户显示。主要从文本中抽取预先定义好的各种事件类型事件实例及其论元[4]。
2、元事件抽取
目前,元事件抽取一直是事件抽取的热点。元事件的提取主要有机器学习和模式匹配两种方法。其中,尽管模式匹配可以在某些特定领域取得较好的性能,但其缺点是移植性差。相比之下,与领域无关的机器学习并不需要太多的指令,因此系统的转移性会比较好[5]。
机器学习方法需要触发词来进行事件探测。机器学习模型根据收录在词典里的触发词来学习,需要大量的语料库。也就是说,虽然机器学习的方法不依赖语料的内容和形式,但是却需要大量的语料库,否则就会导致学习程度不足,不能取得很好的效果。但是,就目前来说,现阶段的语料库规模恐怕难以满足应用,手工标注需要时间和精力[6]。
3、主题事件抽取
元事件提取的一个主要限制是,它仅在句子级别提取[7]。然而,主题事件不能只存在于句子中,通常分散在一个或多个文档中。因此,事件抽取的关键主题是一个主体需要确定文档集合的地方,并利用一定的规则,基于文本或语篇理解来交叉技术,将这些零散的片段进行整合。在这项研究中,研究人员经常使用时间框架或本体来表示时间主题的基本组成部分和组件之间的相关性。
基于事件框架的主题事件抽取,顾名思义,便是利用构建结构化的事件框架来实现事件抽取,从而表现出事件的方方面面。同时,事物的侧面信息可以在语义上进行分类。因此,这里指的事件框架实际上是一种分类体系,它用来分割同一个时间的方方面面的信息[8]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/554.html