scopus引文数据库的学科自动分类研究(附件)

摘要: 1摘要:本文研究SCOPUS数据库学科类别分类体系是构建在以核心期刊为主的整个框架体系上的学科知识类别体系。本研究基于大规模的SCOPUS引文数据库中的学科题录的数据信息,选取SCOPUS数据库中计算机、社会学和图书情报三个学科从2001年至2011年10年间的期刊,通过一定的特征选择,在支持向量机的基础上,完成对相关学科的类别特征的学习,探究了支持向量机在学科分类上的性能,进而实现类别知识体系的构建,为后续的某一篇论文的归属,提供一定的借鉴意义。
目录
引言
绪论
(一)研究目的和意义
学科是与知识相联系的一个学术概念,是自然科学、社会科学两大知识系统(也有自然、社会、人文之三分说)内知识子系统的集合概念,学科是分化的科学领域,是自然科学、社会科学概念的下位概念。对学科的分类,从亚里士多德开始一直到现在形成的整个社会的知识体系的结构分类受到广泛的关注。在现代的知识体系下,学科的知识类别体系相对完整的也是被关注较为广泛的是SCOPUS数据库中关于学科类别的分类体系。该分类体系是构建在以核心期刊为主的整个框架体系上的,这也本文进行机器分类的前提和基础。本文的目的是选取SCOPUS数据库中的学科类别,通过一定的特征选择,在支持向量机的基础上,完成对相关学科的类别特征的学习,进而实现类别知识体系的构建,为后续的某一篇论文的归属,提供一定的借鉴。
基于大规模的SCOPUS引文数据库中的学科题录的数据信息,结合支持向量机,在特征选取的基础上,完成了面向计算机、社会学和图书情报三个学科的分类模型。本文的研究意义具体如下:
理论层面上,本文从数据的层面,探究了学科类别体系是否是随着训练数据的增加,类别体系是否更加的集中,该研究对于验证某一学科是否包含了本学科的核心论文具有数据上的支撑作用。同时,本文基于大规模数据的模型训练,对于类别特征的选取和确定分类模型的特征,对大数据环境下的机器学习模型的构建具有一定的理论参考价值。
技术层面上:探究了支持向量机在学科分类上的性能,对于面向领域化的非结构化数据的知识挖掘,具有一定的价值。结合计算机、社会学和图情学科的自动分类体系的构建,针对具体的三个学科的分类效果,对于判定学科之间的跨学科融合度具有一定的借鉴作用。

 *好棒文|www.hbsrm.com +Q: *351916072* 
(二)国内外研究现状与述评
1.文本分类理论的研究现状
特征选择和分类算法是自动文本分类的两个主要问题,直接决定了文本分类的质量和性能。常用的分类算法包括Rocchio线性分类器、基于实例的k最近邻分类器( kNearest Neighbor,kNN)和基于推广实例的分类器GIS ( Generalized Instance Set)、朴素贝叶斯分类器( Naive Bayes,NB)、决策树分类器( DecisionTrees,DT)、基于支持向量机的分类器( Support Vector Machines,SVM) 等[4]。各种分类算法理论基础不同,适应的背景、数据结构和数据特点也有所不同,大量数据实践证明,并不存在一种在所有分类任务中占据优势的算法[4]。
文本分类领域的特征选择指在一定的分类评价标准之下,从全部的候选特征变量集合中找出最优的特征子集,使得在特定的分类算法下分类评分最高。目前,文本分类领域常用的特征选择方法包括信息增益、互信息、卡方检验、期望交叉熵、单词权、单词贡献度[1][2][3]等。一些学者认为空间向量模型不涉及词条语义信息,而大多数基于统计的特征选择方法使文本应有的语义信息被丢失[3]。一系列基于浅层和深层语义分析的特征选择方法被开发出来,例如隐含语义索引LSI( Latent Semantic Indexing)、局部保持索引LPI(Locality Preserving Indexing)等。已有一些实验从不同角度论证了该方法进行文本分类时的性能,但也有一些学者给出了不同的验证结果[9]。综上,目前语义特征和统计特征的矛盾在于,统计方法筛选出的特征不一定具备语义信息,而语义特征也不一定具备统计特征的分类性能。
2.支持向量机(SVM)理论的研究现状
在文本分类领域,SVM是目前性能最好的分类器之一。JOACHIMS.T[5]从理论分析和实验测试两个方面验证了SVM方法在文本分类领域的高性能特点。自1995年Vapnik在统计学习理论的基础上提出SVM作为模式识别的新方法之后,SVM一直倍受关注。同年,Vapnik和Cortes提出软间隔(soft margin)SVM,通过引进松弛变量 度量数据 的误分类(分类出现错误时 大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM的寻优过程即是大的分隔间距和小的误差补偿之间的平衡过程;1996年,Vapnik等人又提出支持向量回归 (Support Vector Regression,SVR)的方法用于解决拟合问题。SVR同SVM的出发点都是寻找最优超平面,但SVR的目的不是找到两种数据的分割平面,而是找到能准确预测数据分布的平面,两者最终都转换为最优化问题的求解;1998年,Weston等人根据SVM原理提出了用于解决多类分类的SVM方法(MultiClass Support Vector Machines,MultiSVM),通过将多类分类转化成二类分类,将SVM应用于多分类问题的判断。
此外,在SVM算法的基本框架下,研究者针对不同的方面提出了很多相关的改进算法。例如,Suykens提出的最小二乘支持向量机 (Least Square Support Vector Machine,LS—SVM)算法,Joachims等人提出的SVM1ight,张学工提出的中心支持向量机 (Central Support Vector Machine,CSVM),Scholkoph和Smola基于二次规划提出的vSVM等。此后,台湾大学林智仁(Lin ChihJen)教授等对SVM的典型应用进行总结,并设计开发出较为完善的SVM工具包,也就是LIBSVM(A Library for Support Vector Machines)。上述改进模型中,vSVM是一种软间隔分类器模型,其原理是通过引进参数v,来调整支持向量数占输入数据比例的下限,以及参数 来度量超平面偏差,代替通常依靠经验选取的软间隔分类惩罚参数,改善分类效果;LSSVM则是用等式约束代替传统SVM中的不等式约束,将求解QP问题变成解一组等式方程来提高算法效率;LIBSVM是一个通用的SVM软件包,可以解决分类、回归以及分布估计等问题,它提供常用的几种核函数可由用户选择,并且具有不平衡样本加权和多类分类等功能,此外,交叉验证(cross validation)方法也是LIBSVM对核函数参数选取问题所做的一个突出贡献;SVM1ight的特点则是通过引进缩水(shrinking)逐步简化QP问题,以及缓存(caching)技术降低迭代运算的计算代价来解决大规模样本条件下SVM学习的复杂性问题。随着自然语言处理技术和方法的日益成熟,支持向量机被广泛应用到自动分类的研究中并取得了一定的成效。基于支持向量机,Malcolm Corney[5]等人以作者的性别对电子邮件进行了分类。张学工[6]详细介绍了统计学习理论和支持向量机方法的基本思想和特点。萧嵘、王继成和张福炎[7] 对支持向量机的原理进行了详细的综述。梁坤和古丽拉?阿东别克[8]提出了一个基于SVM的情感分类方法,并对真实的新闻评论进行了实验,实验表明SVM是一种性能比较好的方法,能满足大量评论知识发现的需求。翟林、刘亚军[9]对SVM的特点进行了分析,并且选取2700为特征相数目在复旦大学提供的分类语料上进行了实验。梁秀娟[10]基于SVM,用向量空间模型表示文本,用互信息和词频相结合的方式对文本进行特征提取,并将其用特征向量表示出来,从而来训练各并行的两类分类机,并以500 篇交叉和边缘学科类的文档作为测试文本进行验证。胡燕[11]系统研究和分析了基于二叉树的多类支持向量机分类算法,并在此基础上对其作出了改进。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1029.html

好棒文