引文分析视角下的科学数据质量评价研究

1关键词 1Abstract. 1Key words: 1一、引言 2二、科学文献引文分析文献综述 2三、主流生物信息学数据库之间的对比分析 3(一)GenBank数据库 3(二)EMBL数据库 3(三)DDBJ数据库 4四、 科学数据与科学文献的关联 4(一)科学数据与科学文献的关系 4(二)科学数据与科学文献之间的引用关系 4(三)科学数据与科学文献的几种具体关联形式 51.通过硬连接的数据与文献的关联 52.通过近邻关系的数据与文献的关联 53.从主题的角度对科学数据与科学文献进行关联 64.通过聚类分析的科学数据与科学文献的关联 6五、引文分析视角下的科学数据质量评价 7(一)研究方法的选择 7(二)数据来源 7(三)科学数据质量评价 81.利用影响因子对科学数据进行评价 82.利用总被引次数对科学数据进行评价 83.利用共引分析对科学数据进行评价 104.利用聚类分析对科学数据进行评价 10(四)科学数据质量评价意义 12六、结论 12致谢 12参考文献 13表 1 EMBL数据库与GenBank数据库的分析对比 3表 2 序列数据与文献的特征对比 4图 1 科学数据与科学文献之间的交叉引用 4图 2 通过硬连接的数据与文献的关联(数据到文献) 5图 3 通过硬连接的数据与文献的关联(文献到数据) 5图 4 通过近邻关系的数据与文献的关联 6图 5 通过聚类分析的科学数据与科学文献的关联 7图 6 序列数据U07163、NM_153296、NM_053749支持文献所在期刊的影响因子 8图 7 序列数据U07163、NM_153296、NM_053749的总被引次数 9图 8 序列数据U07163在时间分布上的被引情况 9图 9 序列数据U07163与序列数据NM_001184023的共引情况 10图 10 数据HGNC:11393与数据NM_001184023的共引情况 10图 11 共引分析对数据的聚类 11图 12 通过数据的相似性进行聚类 11引文分析视角下的科学数据质量评价研究从引文分析的角度对科学数据进行评价,就是借鉴引文分析方法、选取适当的指标,通过对科学数据的被引用情况进行分析,从而对科学数据的质量进行评价。科学数据与科学文献一样,是科学研究成果的表现形式之一,可以为科学研究提供支持,在某种程度上这些数据的质量是对科学研究质量的反映。通 *好棒文|www.hbsrm.com +Q: ^351916072# 
过学习了解引文分析,探究科学数据与科学文献的关联模式与引用关系,文章最终选取影响因子、总被引次数、共引分析和聚类分析四个指标对科学数据的质量进行评价。从引文分析的角度对科学数据质量进行评价,考虑到科学数据相对于科学文献的底层、细粒度特性,可以提供另外的一种方式对科研热点问题进行分析预测、评价科研工作者的科研贡献。
目录
引言
引言
科学研究的过程会产生巨量且复杂的科学数据,这些数据可以为科学研究提供支撑,在某种程度上这些数据的质量是对科学研究质量的反映,这样就为评价科研工作者贡献、分析科研热点提供了另外的一种方式。当前,科学数据的深入研究已经成为科学研究的一项非常重要的模式,对科学数据进行质量评价不仅可以促进数据的重用还能提高对科学数据实施有效管理,所以对科学数据进行质量评价有很重大的意义。遗憾的是,目前对科学数据进行评价存在诸多问题:缺乏统一的数据发布规范、缺乏统一的数据引用规范[1,2]、科学数据评价标准不完整等等,使科学数据的质量评价工作困难重重。从引文分析的角度对科学数据进行评价,就是尝试从目前较为成熟的引文分析的研究中,借鉴前人积累的经验、总结的方法,从而选取合理的引文分析方法与评价指标来对科学数据进行有效的质量评价。
二、科学文献引文分析文献综述
科学文献之间的相互引用可以揭示它们之间的相互作用、关系。科学文献之间的相互引用有两种主要形式,一种是在文献的正文中以脚注的形式标出其参考文献以及该参考文献的相关内容,另一种是在文献的正文后面以尾注的形式标出其参考文献以及该参考文献的相关内容。从引文分析的角度对科学数据进行评价,需要明白科学数据引用分析与科学文献引用分析的区别在于科学文献引用分析的对象主要是文献,而科学数据引用分析的对象是数据,相对于科学文献,科学数据在科学研究的材料体系中位置更为底层、粒度更细[3]。
引文分析是通过分析科研活动中产生的期刊文献引用其他文献的情况或是被其他文献引用的情况,将文献彼此之间在数量上的关系表现出来,找出文献之间的存在的内在规律,从而可以在一定程度上对科学研究进行评价或是对科研活动的发展进行预测。目前关于科学文献引用分析的研究已经很成熟,学术界进行引文分析的常用指标主要有自引和自引率、共引、总被引次数、影响因子等。
关于自引和自引率,国外的研究热点是关于科技期刊方面的自引与自引率,(一个科技期刊存在自引现象,是指在该科技期刊发表的的论文被后来在该科技期刊发表的论文所引用;科技期刊的自引率是一个占比问题,是通过该科技期刊发表的论文的被该期刊引用的次数除以该期刊论文总的被引用次数得到的)他们得到一个结论:如果一个科技期刊的自引现象严重,会导致该期刊的自引率很高,从而在一定程度上不真实地使该期刊影响因子得到提高。国内的研究则侧重在论文的自引与自引率方面(一篇论文存在自引,是指该论文被其作者在后来的论文中引用;论文自引率是通过该论文被其作者引用的次数除以该论文的总被引次数得到的),认为论文的自引现象,可以表现出该方面科研活动的连续性,体现出该方面学术研究的方向、过程和发展轨迹,具有一定的必要性[5,6] 。
总被引次数是指某期刊论文在当年被引用的总次数。这是一个具体和客观兼具的定量评价指标,可以体现某期刊论文被使用和被读者重视的程度。总被引次数可以直接表现出科学文献在科学发展和学术交流中所起的作用,可以从历史的角度表现期刊论文的在学术研究中的影响力。拿一篇科学文献来说,其被其它文献、机构等引用的次数越多,就说明该文献受关注的程度越高,其在学术研究中的贡献越大,气影响力也就越大[7]。
如果文献A与文献B同时被N篇文献引用,那么就可以认为文献A与文献B具有共引关系,他们的共引强度为N。具有共引关系的文献在各自的主题或是内容上具有一定的相似性,?因此通过文献之间的共引强度可以度量文献在主题、内容上的相关程度[9]。
科技期刊的影响因子也是一个比例问题,一个期刊的影响因子是指该期刊在过去两年发表的论文在统计当年被引用的总次数除以该期刊在这两年内发表的论文总数,是一个国际上通行的期刊评价指标。
三、主流生物信息学数据库之间的对比分析
(一)GenBank数据库
GenBank数据库是NCBI(美国国家生物技术信息中心)中的一个基因序列数据库,该序列数据库汇集并注释了世界上所有公开的核酸序列以及蛋白质序列数据。目前,GenBank数据库中所有的记录均来自于最初作者向DNA序列数据库的直接提交,这些作者将序列数据作为论文的一部分来发表或将数据直接公开。
完整的GenBank数据库包括序列文件、索引文件以及其它有关文件,其中序列文件是GenBank数据库中最重要且最常用到的。序列文件的基本单位是序列条目,序列条目包括LOCUS 、DEFINITION 、ACCESSION 、KEYWORDS 、SOURCE 、REFERENCE、BASE COUNT、ORIGIN 等关键字。
LOCUS:代码,是该序列条目标识符,蕴涵这个序列的功能。
DEFINITION:说明,是这一序列的简单描述。
ACCESSION:编号,具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准。
KEYWORDS:关键词,由该序列的提交者提供,包括该序列的基因产物以及其它相关信息。
REFERENCE:文献,说明该序列中的相关文献,包括AUTHORS 、TITLE以及JOURNAL等。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。
EMBL数据库
欧洲分子生物学实验室(The European Molecular Biology Laboratory,EMBL)的基本单位与GenBank数据库的基本单位都是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。条目的关键字包括ID(序列名称)、DE(序列简单说明)、AC(序列编号)、SV(序列版本号)、KW(与序列相关的关键词)、OS(序列来源的物种名)、OC(序列来源的物种学名和分类学位置)、RN(相关文献编号或递交序列的注册信息)、RA(相关文献作者或递交序列的作者)、RT(相关文献题目)、RL(相关文献杂志名或递交序列的作者单位)、RX(相关文献 Mediline引文代码)、RC(相关文献注释)、RP(相关文献其他注释)、CC(关于序列的注释信息)、DR(相关数据库交叉引用号)、FH(序列特征表起始)、FT(序列特征表子项)、SQ(碱基种类统计数)。下表是EMBL数据库与GenBank数据库的分析对比:

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/560.html

好棒文