引文强度的学术同被引计算方法研究(附件)
摘要:本文针对当前同被引分析算法的缺陷,借鉴TF-IDF的思想,对论文的每一篇引文值进行加权,并提出了引文强度的概念,结合每篇论文的被引情况与引文数量,利用引文强度计算两篇论文的同被引值。为验证方法的可靠性和有效性,本文选用Scopus数据库中2005-2010年间的图书情报学的引文数据,利用不同算法计算出的同被引值计算同被引对之间的文献相似度。并采用问卷调查法进行专家知识评定验证,对随机抽取的同被引值不同的同被引文献相关度进行判别。结果表明本文的方法对相似度高的文献聚合度较之前方法更高,而相关性小的论文则分散度更大。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
一、研究背景介绍 3
二、研究现状 3
三、方法 4
(一)同被引计算方法 4
1.已有的同被引计算方法的通用表述4
2. 基于引文强度的同被引计算方法 5
四、结果与分析 7
(一)基于改进的文献相关计算及统计分析8
(二)基于加权同被引计算方法的文献相似度计算及判定11
1. 基于加权同被引计算方法的论文相似度计算11
2. 专家知识的评定验证16
五、结语 18
参考文献 18
基于引文强度的学术论文同被引计算方法研究
引言
学术论文中的引证关系可以反映出学术交流模式,学科的进步与发展趋势以及作者或是学术团体之间的关系。论文之间引用与被引用的关系能直接说明两篇文章之间存在语义上的相似性和内容上的相关性。由此产生了引文分析方法。在引文分析方法中除了用论文的直接引用关系外,也常分析通过几篇论文而被关联的其他论文之间的关系,包括引文耦合、同被引分析等。同被引分析因为其客观、简洁的方法,在科学新兴知识和前沿领域有非常广泛的应用。
一、研究背景介绍
同被引,又称共引,就是两篇文献同时被其他文献引用。也就是说,如果A和B两篇文献,不管其发表的时间如何,只要同时被后来一篇论文引用,则论文A和B之间产生一个同被引,如果是被多篇论文引用,则产生多个同被引,多个同
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
被引之和被称为同被引强度(Small,1973) [1]。一般认为同被引用的文献在主题上具有或多或少的相似性,因此同被引强度(或共引强度)可以测度文献在内容方面的相关度。同被引强度越强两篇论文的相关性越高,主题可能越相似[2]。
但在上述同被引分析研究的应用中,不论来源文献的参考文献数量有多少、被引文献的引文量有多高,同被引强度总是不变。然而马太效应可知[3],被引频次越高的论文越容易被其他论文引用,也就是说,这样的文章在相关主题的其他论文中有很高的引文同现概率。从而高被引论文从概率角度看来在一定程度上会造成对同被引的高估。另一个方面,论文的引文数量,即引文的长度在确定两篇论文之间的同被引的过程中也会发挥不同的作用,基于现有的同被引的计算方法会导致引文长度长的文章致使同被引强,引文偏少的导致同被引偏弱。本文从这一角度入手,基于TFIDF算法的思想,提出了针对引文的引文强度概念,从这一概念出发,给出了同被引的新的计算方法,在同被引分析中改善引文数量不同的论文带来的差异。
二、研究现状
1973年在提出了共引分析的概念,同被引分析对象是以文献为单位来开展的[4]。在共引分析的基础上,Small进一步的揭示出了自然科学和社会科学的结构发展整体变化趋势,并提出了多次聚类方法。在进一步的研究中,还利用共引聚类生成了多层次的科学结构图,即用一个总体图展示多学科的宽度。在早期的共引分析论文中分析对象通常都选择被引频次较高的文献。因为筛选频次的阈值多根据经验判断,而且不同学科间的论文与引文数量差异较大,这样的选择必然缺乏科学依据与客观性,从而导致分析结果的失真。为此,Small(1985)提出了指标分数引文量(fractional citation counting),用来改进共引分析中文献的选择。这一方法中每一条引文都用它的来源文献的引文长度进行加权,以此平衡不同学科和论文的差异[5]。
McCain(1990)总结了共引分析技术的主要流程,包括对分析领域和对象颗粒度大小的选择与确认;对分析对象建立共引矩阵;处理共引数据;根据需求对数据进行聚类分析或多位标度;解释分析结果[6]。他提出可以用Pearson相关系数确定共引矩阵,并以此聚类。为了提高共引分析方法的效果,有人对聚类的算法进行改进,使用的聚类从简单的等级聚类法(hierarchical clustering )、单一连结法(singlelink clustering ),常用的多维标度分析方法(multidimensional scaling analysis ),以及kmeans方法、因子分析方法(factor analysis )等[7]。为解决对矩阵数据聚类时依靠皮尔逊相关系数带来的问题,White(2003)采纳一种新技术,网络寻址定位(PFNETs)它不需要使用相似性系数,可以直接使用共引矩阵的原始数据[7]。其后还有人引入自组织映射(SOM)技术,潜在语义索引(LSI)技术等来进行降维。针对不同学科引文率不同,Small引入了可变水平聚类方法( Variable level clustering) 即在聚类过程中限定类中结点数目,不断调整聚类临界值的方法,来消除不同学科间引文率不同所造成的分析结构的不平衡性,和以类聚类(clustering of clusters) 的反复聚类方法,即以一次聚类形成的簇为单元再次聚类,逐步形成大类、超类[8]。
随着引文分析技术的发展,最开始分析时只关注引文数目之间的关联也逐渐扩展到对引文内容的分析。Gipp和Beel(2009)提出了引文临近分析(Citation Proximity Analysis)[9]。他们认为两篇引文在文章中位置越接近,两篇引文的相似程度就越高,而这种相似程度由引文临近度(Citation Proximity Index)来测算。Liu和Chen(2011) 在学术论文全文中对共引文献进行实验,想验证引文临近分析在同被引分析中是否有效[10]。?Boyack,B?rner和Klavans (2013) 为提高共引文献的聚类精度和准确性,提出了规范化的引文临近度方法[11]。
三、研究方法
针对上述所提到的原始的两篇论文同被引的计算没有兼顾到被引文献的被引次数和引文文献的引文数量的问题,本文提出了新的两篇文献同被引计算的新的方法。为了便于后续的阐述,本文对相应的概念进行了界定和说明:
引文强度:在同被引的计算过程中,文献引用了另外一篇文献,从而这两篇文章具有了研究主题、研究方法和研究领域上的相似性,这种通过引文关系表达的相似程度称为引文强度。引文强度是本文提出的改进的同被引计算方法的基础。
同被引值:两篇论文被一篇论文共同所引用,则会产生一个同被引,本文把这一同被引定义为同被引值,在原始的算法中,同被引值均为1[12],但在改进的同被引算法下,同被引值取决于被引文献的被引次数和引用文献的引文数目。
同被引强度:同时引证这两篇论文的论文篇数为同被引强度,即所有同被引值之和[12]。
(一)同被引计算方法
目录
摘要1
关键词1
Abstract1
Key words1
引言1
一、研究背景介绍 3
二、研究现状 3
三、方法 4
(一)同被引计算方法 4
1.已有的同被引计算方法的通用表述4
2. 基于引文强度的同被引计算方法 5
四、结果与分析 7
(一)基于改进的文献相关计算及统计分析8
(二)基于加权同被引计算方法的文献相似度计算及判定11
1. 基于加权同被引计算方法的论文相似度计算11
2. 专家知识的评定验证16
五、结语 18
参考文献 18
基于引文强度的学术论文同被引计算方法研究
引言
学术论文中的引证关系可以反映出学术交流模式,学科的进步与发展趋势以及作者或是学术团体之间的关系。论文之间引用与被引用的关系能直接说明两篇文章之间存在语义上的相似性和内容上的相关性。由此产生了引文分析方法。在引文分析方法中除了用论文的直接引用关系外,也常分析通过几篇论文而被关联的其他论文之间的关系,包括引文耦合、同被引分析等。同被引分析因为其客观、简洁的方法,在科学新兴知识和前沿领域有非常广泛的应用。
一、研究背景介绍
同被引,又称共引,就是两篇文献同时被其他文献引用。也就是说,如果A和B两篇文献,不管其发表的时间如何,只要同时被后来一篇论文引用,则论文A和B之间产生一个同被引,如果是被多篇论文引用,则产生多个同被引,多个同
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
被引之和被称为同被引强度(Small,1973) [1]。一般认为同被引用的文献在主题上具有或多或少的相似性,因此同被引强度(或共引强度)可以测度文献在内容方面的相关度。同被引强度越强两篇论文的相关性越高,主题可能越相似[2]。
但在上述同被引分析研究的应用中,不论来源文献的参考文献数量有多少、被引文献的引文量有多高,同被引强度总是不变。然而马太效应可知[3],被引频次越高的论文越容易被其他论文引用,也就是说,这样的文章在相关主题的其他论文中有很高的引文同现概率。从而高被引论文从概率角度看来在一定程度上会造成对同被引的高估。另一个方面,论文的引文数量,即引文的长度在确定两篇论文之间的同被引的过程中也会发挥不同的作用,基于现有的同被引的计算方法会导致引文长度长的文章致使同被引强,引文偏少的导致同被引偏弱。本文从这一角度入手,基于TFIDF算法的思想,提出了针对引文的引文强度概念,从这一概念出发,给出了同被引的新的计算方法,在同被引分析中改善引文数量不同的论文带来的差异。
二、研究现状
1973年在提出了共引分析的概念,同被引分析对象是以文献为单位来开展的[4]。在共引分析的基础上,Small进一步的揭示出了自然科学和社会科学的结构发展整体变化趋势,并提出了多次聚类方法。在进一步的研究中,还利用共引聚类生成了多层次的科学结构图,即用一个总体图展示多学科的宽度。在早期的共引分析论文中分析对象通常都选择被引频次较高的文献。因为筛选频次的阈值多根据经验判断,而且不同学科间的论文与引文数量差异较大,这样的选择必然缺乏科学依据与客观性,从而导致分析结果的失真。为此,Small(1985)提出了指标分数引文量(fractional citation counting),用来改进共引分析中文献的选择。这一方法中每一条引文都用它的来源文献的引文长度进行加权,以此平衡不同学科和论文的差异[5]。
McCain(1990)总结了共引分析技术的主要流程,包括对分析领域和对象颗粒度大小的选择与确认;对分析对象建立共引矩阵;处理共引数据;根据需求对数据进行聚类分析或多位标度;解释分析结果[6]。他提出可以用Pearson相关系数确定共引矩阵,并以此聚类。为了提高共引分析方法的效果,有人对聚类的算法进行改进,使用的聚类从简单的等级聚类法(hierarchical clustering )、单一连结法(singlelink clustering ),常用的多维标度分析方法(multidimensional scaling analysis ),以及kmeans方法、因子分析方法(factor analysis )等[7]。为解决对矩阵数据聚类时依靠皮尔逊相关系数带来的问题,White(2003)采纳一种新技术,网络寻址定位(PFNETs)它不需要使用相似性系数,可以直接使用共引矩阵的原始数据[7]。其后还有人引入自组织映射(SOM)技术,潜在语义索引(LSI)技术等来进行降维。针对不同学科引文率不同,Small引入了可变水平聚类方法( Variable level clustering) 即在聚类过程中限定类中结点数目,不断调整聚类临界值的方法,来消除不同学科间引文率不同所造成的分析结构的不平衡性,和以类聚类(clustering of clusters) 的反复聚类方法,即以一次聚类形成的簇为单元再次聚类,逐步形成大类、超类[8]。
随着引文分析技术的发展,最开始分析时只关注引文数目之间的关联也逐渐扩展到对引文内容的分析。Gipp和Beel(2009)提出了引文临近分析(Citation Proximity Analysis)[9]。他们认为两篇引文在文章中位置越接近,两篇引文的相似程度就越高,而这种相似程度由引文临近度(Citation Proximity Index)来测算。Liu和Chen(2011) 在学术论文全文中对共引文献进行实验,想验证引文临近分析在同被引分析中是否有效[10]。?Boyack,B?rner和Klavans (2013) 为提高共引文献的聚类精度和准确性,提出了规范化的引文临近度方法[11]。
三、研究方法
针对上述所提到的原始的两篇论文同被引的计算没有兼顾到被引文献的被引次数和引文文献的引文数量的问题,本文提出了新的两篇文献同被引计算的新的方法。为了便于后续的阐述,本文对相应的概念进行了界定和说明:
引文强度:在同被引的计算过程中,文献引用了另外一篇文献,从而这两篇文章具有了研究主题、研究方法和研究领域上的相似性,这种通过引文关系表达的相似程度称为引文强度。引文强度是本文提出的改进的同被引计算方法的基础。
同被引值:两篇论文被一篇论文共同所引用,则会产生一个同被引,本文把这一同被引定义为同被引值,在原始的算法中,同被引值均为1[12],但在改进的同被引算法下,同被引值取决于被引文献的被引次数和引用文献的引文数目。
同被引强度:同时引证这两篇论文的论文篇数为同被引强度,即所有同被引值之和[12]。
(一)同被引计算方法
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1012.html