一种基于textrank的文章提取方案的设计与实现【字数:11505】

题 目一种基于TextRank的文章提取方案的设计与 实现 学生姓名 盛滟鸿 学 院 电子信息工程学院 专 业 电子信息工程 班 级 115091B 学 号 12015091156 指导教师 卞璐 摘 要随着网络的不断发展,文献和信息用户不断增加,自动文摘被文献处理领域重视。自动文摘是本课题中处理文字或语义信息的一种方法,其中TextRank就是应用其原理建立拓扑结构图的代表性算法之一。本设计中的TextRank算法参考了PageRank算法,它将文章分成若干节点,其中这些节点是由几个文本单元(词项或句子)组成的,文本单元之间的相似度形成节点之间的边,从而构造出图模型。使用算法对其模型进行迭代计算直到收敛,并且对所有节点进行重新排序,最终会输出关键词或。论文阐述了基于TextRank的文章提取方案的设计与实现过程。首先分析了课题的研究现状,接下来对TextRank算法进行介绍,然后介绍Python语言如何实现文章自动提取,进行测试与分析,最后对文章进行总结。关键词TextRank;文章提取;Python ABSTRACTWith the continuous development of the network and the increasing number of users of literature and information, automatic summarization has been paid attention to in the field of document processing. Automatic summarization is a method of processing text or semantic information in this topic, and TextRank is one of the representative algorithms of building top *好棒文|www.hbsrm.com +Q: ^351916072# 
ological structure graph based on its principle. In this design, the TextRank algorithm refers to PageRank algorithm, which divides the article into several nodes, which are composed of several text units (terms or sentences). The similarity between text units forms the edges between nodes, so as to construct a graph model. The algorithm is used to iterate the model until convergence, and reorder all the nodes, which will eventually output keywords or abstracts.This paper describes the design and implementation process of abstract extraction scheme based on TextRank. Firstly, the research status of the subject is analyzed. Next, the TextRank algorithm is introduced. Then, how to extract abstracts automatically in Python language is introduced, tested and analyzed. Finally, the article is summarized.Key words:TextRank; Abstract extraction of articles; Python第一章 绪论 11.1课题研究的背景与意义 11.2课题研究现状 21.2.2自动研究现状 32.2.1提取的基本概念 52.2.4TextRank算法提取 123.3.2 TextRank算法提取程序设计 23第四章 文章提取方案的测试与分析 254.1.2测试结果 27信息时代的来临使得文献的数量直线上升,在短短的几年内,原本信息稀缺的信息用户由信息稀缺到成倍地增加,从而导致用户信息的负载量过于庞大,之前常常采用较为古老的人工技术来处理文献的速度已经无法与文献生产速度相比拟[1]。对这些文献进行提取关键词是人们很早之前就已经想到的提取方法,通过不同的方法来计算词对文章的贡献大小,给词赋予一定的权值,选择权值大的词作为文章的关键词[2]。事实上,关键词提取一直是一种人们常常会选择采用的手段,它作为自然语言处理(Natural Languange Processing,NLP)的一种方式,并且广泛地运用在文献进行自动提取、文章内容进行聚集糅合、检测出文献主题的主要观点和思想等方面。所谓自动,是指反映了文章主题的句子或者短文的提取,根据的提取方式分成压缩式和提取式这两种自动提取方式。如果所摘选出来的词汇是通过压缩式自动摘取获得的,经常会出现类似于这样的情况所摘选出来的句子,在原文中无法找到,但概而论之,根据语义理解和学习的深度,难度高,而且没有确立精度的评价标准,因此这个手段现在系统地运用已经不可能了。通过自动来提取关键词的方式,常常是可以将其看作是原文中就有并且可以用来归纳文章中心思想的句子,将文章线性地组织成为一个句子,对文章中的句子加权并且采用的都是不同的方法,经过对比权重,选取值高的句子输出,将其作为[3]。随着网络的不断发展与完善,能够很明显的得知自动对文章的信息截取的价值是很大的,自动已经成为了NLP领域不可替代的研究方法,并且将继续改善。为了应对自动无法跟得上大众的需求,学术界不断地研究计算机的相关技术,希望可以运用计算机的技术来处理文献,自动文摘就是其中一个不可缺少的部分。自动是通过计算机程序来处理文本的,并在处理之后自动地生成文本,从而能够简单且完全地表达出文本所希望表达的主要观点。自从掌握自动提取文章的技术以来,人们可以通过阅读文章来迅速阅读文章的主要内容,可以使其节省出大量的时间来做其他的事,大大地提高了他们在阅读浏览书籍方面的速度。自动文摘技术己经被各个领域利用。在医学领域,可以帮助医生从大量医学文献中找到有助于解决患者病情的方法;在法律领域,可以帮助律师从大量的文件中找到有利于案件的诉讼信息;在互联网领域,Google搜索引擎就运用自动文摘技术对网页内容进行自动。自然语言处理的一个重要转折点就是自动,NLP是在自动基础上发展起来的。因此,研究自动是一项非常艰巨的任务。当今社会,琐碎化信息越来越严重,自动还可以帮助大家迅速地从这些信息中提炼出真正有价值的内容。本文是基于TextRank算法来完成并设计出文章提取方案的,其中所提出的自动方案具有妥当性和有用性。1.2.2自动研究现状压缩式的自动是通过组合语义模型和人工智能等技术,可以自动制作的提取方法。除此以外,随着人工智能的快速发展和深度学习,自动也逐渐成为深度学习的主要研究方向。苏特斯克等研究人员提出了一种新的模型叫做Seq2Seq模型[15]。这是以Encoder-Decoder为基础,把报道的内容编码成固定维度的矢量之后通过解码,然后一个字符一个字符生成目标。对于还在摸索中的压缩式自动方法来说,提取式的自动方法处于当前的主要研究方向,该方法大致分为以统计特征为基础和以图模型为基础的自动。在中文自动提取领域中,上海交通大学出身的王永成教授指出了一种自动汇总方法,它结合并不断改进统计位置、短语、关键词和标题等各种功能[20]。 最后,开发了一个自动中文OA文章系统,该系统对中文文章的自动聚合具有更好的提取效果。基于图模型的自动是以文章的句子为节点,将句子之间的相似性作为边的权重以构筑图模型,使用图模型的相关算法进行迭代计算,选择权重值最大的句子作为,其中代表性的算法就是TextRank算法。简述文章提取方案的研究背景,同时对文章提取技术的研究现状进行综述;对提取关键词和自动方法进行研究,提出一种基于TextRank的文章提取方案。认真研究关键词提取算法TextRank的相关理论知识,掌握Python语言的编程方法,能够通过其实现基于TextRank算法的文章自动提取。第一章 绪论介绍了基于TextRank的文章提取方案这个课题的背景及意义、研究现状,阐述了本次设计研究的主要内容,简单地描述了每一章节的结构安排。本课题需要查阅和学习相关资料,认真研究关键词提取算法TextRank相关理论知识。TextRank算法借鉴了PageRank算法的思想,用于为文本生成关键词和。掌握Python语言的编程方法,能够通过Python语言实现基于TextRank算法的文章自动提取。通过研究TextRank算法,利用Python语言来编写代码实现基于TextRank的文章自动提取。TextRank算法实现流程图如图2-1所示。图2-1 TextRank算法提取流程图2.2.1提取的基本概念自动[13](Automatic Summarization)有两种类型Extraction和Abstraction。Extraction是通过提取原稿中存在的关键词来形成的提取式自动句子提取方法。Abstraction是依靠自然语言生成技术对抽象的语义表示来生成的。因为自动的范围有限,所以它需要复杂的自然语言理解和生成技术支持。抽取式成为现阶段主流,它也能在很大程度上满足人们对的需求。目前抽取式的主要方法基于线路规划把问题改成线路计划,寻求全球最佳解。TextRank算法是基于图的排序算法,用于为文本生成关键词和。这种基本思维来自Google的PageRank算法,通过将文本分成几个组成单元(单词、句子)来制作图模型,利用投票机制对文本中的重要成分进行排序,只需利用单篇文章本身的信息即可提取关键词和。与LDA和HMM等模型不同,TextRank没有必要事先学习和训练多份文章,因为简洁而被广泛应用。在介绍TextRank算法之前,首先还要熟悉另一种算法——PageRank算法。
目 录
1.3课题研究的内容及安排 4
1.3.1研究内容 4
1.3.2论文架构 4
第二章 方案的总体设计 5
2.1方案总体设计概述 5
2.2方案设计与分析 5
2.2.2TextRank算法 6
2.3 本章小结 12
第三章 方案的代码设计与实现 13
3.1Python相关软件安装 13
3.1.1Python2.7安装 13
3.1.2PyCharm软件安装 15
3.2中文库导入 19
3.3代码设计 22
3.4本章小结 24
4.1测试结果 25
4.2问题分析 29
4.3本章小结 29
结束语 30
致 谢 31
参考文献 32
附录 33
第一章 绪论
1.1课题研究的背景与意义
1.2课题研究现状
基于语义模型的自动摘要方法是从要提取的文章中提取与主题相关的信息,然后将语义模板添加到虚拟环境以创建主题。诸如TOPIC、SCISOR、SUMMON之类的自动摘要系统都是使用这种方法的,这需要完整的语义数据库和语言规则模板,然后就可以明确地生成匹配语言学规则的主题,但只适用于特定类别的文章[14]。
1.3课题研究的内容及安排
1.3.1研究内容
1.3.2论文架构
第二章 方案的总体设计:总体描述了该方案的相关基础理论及使用到的一些相关技术,介绍了TextRank算法,根据该算法,最后介绍并总结了句子相似度计算方法和句子权重计算方法。
第三章 方案的代码设计与实现:介绍了代码的实现过程,然后阐述需要用到的编程软件,对程序流程分别给出了实施过程步骤,并进行了分析和归纳。
第四章 方案的测试与分析:数据的准备、数据读取、数据预处理、分词等步骤的实现,最后分析设计过程中遇到的问题并总结。
第二章 方案的总体设计
2.1方案总体设计概述

2.2方案设计与分析
基于统计:词语、位置等的统计信息,句子的权值计算,更容易采取权值较高的句子作为文摘,特点:简单,很容易使用,但是对语句的使用大部分只停留在表面的信息上。
基于图模型:构建拓扑结构图并进行排序。例如TextRank。
基于潜在语义:使用主题模型来挖掘词句的隐藏信息。例如,采用LDA, HMM。
2.2.2TextRank算法
PageRank算法: 谷歌公司独有的算法[7]就是PageRank,用于测定特定网页对搜索引擎索引中其他网页的重要性,并根据网页之间的超链接进行计算得出的技术。假设一张有向图是整个www,那么网页就是节点。如果网页A具有指向网页B的链接时,如图22所示,那么网页A具有指向网页B的方向性。
/
图22 网页链接流程图
构造完图后,使用下面的公式(21):
S
V
????
=
1?d
+d?
????∈????????(
????
????
)
1
????????????
????
????
????(
????
????
)
式(21)
S(Vi)是web页面i中的重要性(PR值);
d是阻尼系数,通常设定为0.85;
In(Vi)是web页面i中的web页面的集合,其中存在链接;
Out(Vj)是web页面j中存在链接的链接所指的web页面的集合,|Out(Vj)|是集合中元素的个数。
在PageRank中,上述公式必须迭代多次,以获得结果。上述等式中等号左侧的计算结果是迭代后web页面i的PR值,并且等号右侧使用的所有PR值都是在迭代之前的。每个网页的重要性最初可以设置为1。用一个实例来简单说明一下,假设我们有4个网页——w1,w2,w3,w4,这些页面包含指向彼此的链接。有些页面可能没有链接,这些页面被称为悬空页面,如表21所示。
表21 网页链接流程表
webpage
links
W1
[w4,w2]
W2
[w3,w1]
W3
[]
W4
[w1]
矩阵中的每个元素表示从一个页面链接进另一个页面的可能性。比如,如图23所示高亮的方格包含的是从w1跳转到w2的概率。
/
图23 链接高亮显示图
如下是概率初始化的步骤:
1.从页面i链接到页面j的概率,也就是M[i][j],初始化为1/页面i的出链接总数wi。
2.如果页面i没有到页面j的链接,那么M[i][j]初始化为0。
3.如果一个页面是悬空页面,则页面链接到另一页面的可能性是相同的,假设其概率相同,所以M[i][j]初始化为1/页面总数。
因此在本例中,矩阵M初始化后如图24所示:
/
图24 链接概率图
最后,这个矩阵中的值将以迭代的方式更新,以获得网页排名。
TextRank算法:TextRank的一般模型是一个有向有权图G=(V,E),由点集合V和边集合E构成,E是V×V的子集。图中任意两点Vi,Vj之间边的权重为Wji,对于某点Vi,In(Vi)是指向该点的点集合,Out(Vi)是点Vi指向的点集合。点Vi的得分定义为公式(22):

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/591.html

好棒文