裁判文书的信息抽取(附件)
裁判文书属于非结构化数据,不适合计算机自动化处理和分析。本文就目前裁判文书网上公开的制度下论述了裁判文书研究的可行性,并对裁判文书的法律载体结构特点以及其分类的依据进行分析。本文根据裁判文书的特点和分类的多样性,提出来一种对裁判文书结构自动识别的模型,将裁判文书进行结构化处理之后,提取出裁判文书法院意见部分并构建“事件-文书”检索模型,分析其实用价值。最后,本文根据本实验的研究结果总结研究的不足及未来裁判文书的研究方向。
目录
摘要 3
关键词 3
Abstract 3
Key words 3
一、引言 4
二、裁判文书的特点 4
(一)裁判文书的结构 4
(二)裁判文书的引用法律条文 5
三、相关工作 6
四、相关模型 7
(一)word2vec模型 7
(二)支持向量机 7
(三)条件随机场 7
(四)LSTM循环神经网路 8
五、实验设计 9
(一) 语料库的建立 9
(二)“事件文书”检索系统 9
六、裁判文书结构识别 9
(一)结构识别框架 9
(二) 特征提取 10
(三)实验结果比较 11
七、裁判文书与事件的检索 12
(一)“事件文书”匹配框架 12
(二)“事件文书”匹配模型的设计 13
1.余弦相似度匹配模型 13
2.支持向量机分类模型 13
3.基于长短时记忆网络(LSTM)的神经网络模型 13
(三) 实验设计与评价 14
1.实验数据 14
2.实验的评价指标 14
3.实验结果比较 14
八、 结语与展望 15
致谢 17
参考文献 18
图5“事件文书”检索系统 10
图6结构识别框架图 10
图7“事件文书”匹配框架 13
图8基于LSTM的神经网络模型 14
表1法律法规引用频 *好棒文|www.hbsrm.com +Q: ^351916072#
次 5
表2法律条文引用频次 5
表3特征算法提取结果 12
表4SVM不同特征下的分类结果 12
表5条件随机场和支持向量机的结果比较 12
表6 word2vect计算的相似度 14
表7三种匹配模型的比较 15
基于裁判文书的信息抽取
引言
引言
自从2014年1月1日,《最高人民法院关于人民法院在互联网公布裁判文书的规定》正式实施。截止2017年7月为止,裁判文书相关网站就有中国裁判文书网、北大法宝网等,各大地方法院均有相应的官方网站进行文书查询。仅中国裁判裁判文书网站,裁判文书总上传量达到32155576篇。裁判文书的数据量远远超出了我们的想象,这对于大数据时代下的法律信息研究提供了基础。
裁判文书是记载人民法院审理过程和结果,它是诉讼活动结果的载体,里面包括了公诉机关、被告人、原告人、辩护人、审判机构、证据信息、法院判定依据以及参考的法律条例。相比于互联网大多数信息而言,裁判文书有着很好的语言规范性,即大部分裁判文书被审核多次,用词谨慎;因此,裁判文书在语言上与传统的法律载体信息相近,适合使用自然语言技术进行处理。无论是从裁判文书的数据量上面来讲,还是从裁判文书本身的内容性质来讲,裁判文书都可以作为一种新的法律载体信息进行处理、检索和存储。
从在自然语言处理技术从词、词性发展到语义、语法层面的研究下面,抽取出裁判文书中的事件关系等语义信息转化成结构化数据。我们不仅仅要从词汇的角度对裁判文书的内容进行标引,还要从词与词之间的关系对裁判文书进行处理。因此,本文从基于裁判文书的信息抽取,实现裁判文书结构识别,提取法院部分用于“事件文书”匹配检索系统。
二、裁判文书的特点
本人从中国裁判文书网爬取了6个省份,刑事案件、民事案件共计8662,除去无效文本6篇,不相关文本168篇(多为裁判文书订正,撤诉通知等),最后剩下有效文本8488个。裁判文书主要形式是以文本的方式进行展现,结构比较完整。
(一)裁判文书的结构
裁判文书的结构形式比较统一,大体分为原告(公诉机关)及委托代理人、被告及委托代理人、原(被)告的辩诉、书面证据列举、证人证言列举、法院意见、引用的法律条文、以及法院审判人员信息。按照一定的顺序,裁判文书将相应的板块依次罗列。
而从数据形式来讲,原被告(公诉机关)及委托代理人、被告及委托代理人、书面证据列举、法院审判人员、引用的法律条文信息属于结构化的数据,便于直接存储,进行检索。例如,“公诉机关XX省XX市人民检察院。被告人XXX。”
从非结构化数据来讲,原(被)告的辩诉、书面证据列举、证人证言列举、法院意见属于非结构化的数据不方便进行检索与储存。
现有的裁判文书的检索系统,一般都是通过裁判文书中的结构化数据进行检索。而对每篇文书中的重要内容,即原(被)告的辩诉、法院认定的证据、法院裁定未有体现。
(二)裁判文书的引用法律条文
裁判文书是记载人民法院审理过程和结果的载物,不仅记载了整个案件的发生的过程,也记载了法院在判定案子时所引用的法律条文。从8488篇裁判文书中提取出来的法律条文有(列举引用次数较多的前4名,以频次超过1000为标准):
表1 法律法规引用频次
目录
摘要 3
关键词 3
Abstract 3
Key words 3
一、引言 4
二、裁判文书的特点 4
(一)裁判文书的结构 4
(二)裁判文书的引用法律条文 5
三、相关工作 6
四、相关模型 7
(一)word2vec模型 7
(二)支持向量机 7
(三)条件随机场 7
(四)LSTM循环神经网路 8
五、实验设计 9
(一) 语料库的建立 9
(二)“事件文书”检索系统 9
六、裁判文书结构识别 9
(一)结构识别框架 9
(二) 特征提取 10
(三)实验结果比较 11
七、裁判文书与事件的检索 12
(一)“事件文书”匹配框架 12
(二)“事件文书”匹配模型的设计 13
1.余弦相似度匹配模型 13
2.支持向量机分类模型 13
3.基于长短时记忆网络(LSTM)的神经网络模型 13
(三) 实验设计与评价 14
1.实验数据 14
2.实验的评价指标 14
3.实验结果比较 14
八、 结语与展望 15
致谢 17
参考文献 18
图5“事件文书”检索系统 10
图6结构识别框架图 10
图7“事件文书”匹配框架 13
图8基于LSTM的神经网络模型 14
表1法律法规引用频 *好棒文|www.hbsrm.com +Q: ^351916072#
次 5
表2法律条文引用频次 5
表3特征算法提取结果 12
表4SVM不同特征下的分类结果 12
表5条件随机场和支持向量机的结果比较 12
表6 word2vect计算的相似度 14
表7三种匹配模型的比较 15
基于裁判文书的信息抽取
引言
引言
自从2014年1月1日,《最高人民法院关于人民法院在互联网公布裁判文书的规定》正式实施。截止2017年7月为止,裁判文书相关网站就有中国裁判文书网、北大法宝网等,各大地方法院均有相应的官方网站进行文书查询。仅中国裁判裁判文书网站,裁判文书总上传量达到32155576篇。裁判文书的数据量远远超出了我们的想象,这对于大数据时代下的法律信息研究提供了基础。
裁判文书是记载人民法院审理过程和结果,它是诉讼活动结果的载体,里面包括了公诉机关、被告人、原告人、辩护人、审判机构、证据信息、法院判定依据以及参考的法律条例。相比于互联网大多数信息而言,裁判文书有着很好的语言规范性,即大部分裁判文书被审核多次,用词谨慎;因此,裁判文书在语言上与传统的法律载体信息相近,适合使用自然语言技术进行处理。无论是从裁判文书的数据量上面来讲,还是从裁判文书本身的内容性质来讲,裁判文书都可以作为一种新的法律载体信息进行处理、检索和存储。
从在自然语言处理技术从词、词性发展到语义、语法层面的研究下面,抽取出裁判文书中的事件关系等语义信息转化成结构化数据。我们不仅仅要从词汇的角度对裁判文书的内容进行标引,还要从词与词之间的关系对裁判文书进行处理。因此,本文从基于裁判文书的信息抽取,实现裁判文书结构识别,提取法院部分用于“事件文书”匹配检索系统。
二、裁判文书的特点
本人从中国裁判文书网爬取了6个省份,刑事案件、民事案件共计8662,除去无效文本6篇,不相关文本168篇(多为裁判文书订正,撤诉通知等),最后剩下有效文本8488个。裁判文书主要形式是以文本的方式进行展现,结构比较完整。
(一)裁判文书的结构
裁判文书的结构形式比较统一,大体分为原告(公诉机关)及委托代理人、被告及委托代理人、原(被)告的辩诉、书面证据列举、证人证言列举、法院意见、引用的法律条文、以及法院审判人员信息。按照一定的顺序,裁判文书将相应的板块依次罗列。
而从数据形式来讲,原被告(公诉机关)及委托代理人、被告及委托代理人、书面证据列举、法院审判人员、引用的法律条文信息属于结构化的数据,便于直接存储,进行检索。例如,“公诉机关XX省XX市人民检察院。被告人XXX。”
从非结构化数据来讲,原(被)告的辩诉、书面证据列举、证人证言列举、法院意见属于非结构化的数据不方便进行检索与储存。
现有的裁判文书的检索系统,一般都是通过裁判文书中的结构化数据进行检索。而对每篇文书中的重要内容,即原(被)告的辩诉、法院认定的证据、法院裁定未有体现。
(二)裁判文书的引用法律条文
裁判文书是记载人民法院审理过程和结果的载物,不仅记载了整个案件的发生的过程,也记载了法院在判定案子时所引用的法律条文。从8488篇裁判文书中提取出来的法律条文有(列举引用次数较多的前4名,以频次超过1000为标准):
表1 法律法规引用频次
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/498.html