科研评价中的机构名称规范化研究
1机构名作为科研评价中的基本元素,在推动科研评价发展进程中起着非常重要的作用。本文阐述了英文机构名称规范化研究的现状及意义,并以Web of Science中从2008年到2012年的农业科学领域的文献机构数据作为研究的数据基础,分析英文机构名数据的特点,探究机构名之间的相关关系,首先利用向量空间模型进行初步识别,然后利用邮政编码进行二次识别,最后实现了机构名称的自动识别算法,并用来辅助人工完成英文机构名称的规范化工作。通过对实验数据的测试,从实验结果可以看出该方法具有较高的查全率和查准率。
目 录
Abstract 1
Key words 1
引言 2
一、研究现状及研究目的 2
(一)规范化研究现状 2
(二)规范化研究存在的问题 2
(三) 研究目的 3
二、研究方法 3
(一)向量空间模型 3
(二)数据来源 4
(三)数据的清洗与统计 4
三、 机构名称自动识别算法 5
(一) 算法的主要流程 5
(二) 算法的功能实现 5
1.算法主要功能模块 5
2. 算法主要功能实现的方法与步骤 5
四、 结果与分析 6
(一)研究结果 6
(二)错误分析 7
五、结束语 7
致谢 8
参考文献 9
附表1:机构名算法识别结果列表(52条记录) 10
附表2:算法识别正确结果列表(45条记录) 12
附表3:人工识别结果列表(63条记录) 13
科研评价中的机构名称规范化研究
信息管理与信息系统专业学生 杨军威
指导教师 杨波
Evaluation of Scientific Research on Name Normalization
of Organizations
Student majoring in Information Management and Information System YAN *好棒文|www.hbsrm.com +Q: ^351916072*
G JunWei
Tutor YANG Bo
Abstract:Organization name as the basic elements of scientific evaluation plays a very important role in promoting the development of research and evaluation process. This paper describes the current situation and the significance of standardization of the English organization name, and with the literature data in the field of agricultural sciences from 2008 to 2012 of the Web of Science as the basic research agency data, analyzing the characteristics of the English institution name data to explore the relationship between the organization names. First identification with using the vector space model, and then using the zip code for the second identification, and finally achieving the automatic recognition algorithm of the organization names is to aid in the labor work of the standardization for English organization names. Through the experimental data, the experimental results can be seen that the method has a high recall and precision.
Key words: Institutional evaluation; Name Normalization; Organization Identification; Relationship;
引言
在当下这个网络和信息技术不断发展的时代,人们已经无法满足于从成果内容上获取文献信息资源。因此,他们希望通过文献计量学的原理和方法,从多个方面来分析评价科研机构的科研生产情况,把握科技研究现状已成为人们关心的重点问题。
作为《期刊论文描述元数据规范》中的重要元素修饰词“作者机构”,其名称的规范性直接影响着科技论文的检索以及在此基础上进行的学术评价和科研管理。因此,规范化作者机构名称在优化科技论文检索,提高文献信息分析评价功能等方面有着重要的作用。
本文通过编写机构名称自动识别算法对Web of Science(WOS)中的文献作者机构进行识别与规范,将同一机构的多个不同机构名称相互关联起来,实现英文机构名称的统一化与规范化,提高科研评价者的工作效率,方便科研评价者对机构、作者等进行更全面客观地评价。
一、研究现状及研究目的
科研评价活动中的最基本单元就是机构,作为科研活动的重要力量,机构评价越来越在科研评价发展等方面发挥着重要的作用。
(一)规范化研究现状
目前,国内不少研究者从机构名称规范化研究方面对科研评价进行研究,建立机构名规范标准成为机构名规范化的前提,机构名称规范化首先需要制定机构名的规范标准,如《团体名称界定范围与标目结构》、《中国规范记录格式》、CALIS联合目录规范格式,通过规范标准让机构名称数据在著录和检索过程中得到规范控制[1];其次就是构建机构名称数据库,如万方只是服务平台的中国科研机构数据库、全国组织机构代码信息数据库等。这些数据库收集了海量的机构信息,其中包括机构名的简称、别名、简介、机构类型与网站链接等,为科研评价者以及其他各领域的用户提供了一个相互交流合作的平台[2];最后则需要建立一个机构名称规范化文档,通过建立统一的机构名称规范文档,将同一个机构的别名、更名以及简称等添加到规范文档中,用其中的一个使用频次最高的机构名对同一机构的其他不同表达形式进行关联,从而达到对机构名称的唯一性标识的目的[3]。
在机构名识别方法方面,更多学者使用模板匹配,主要是对机构名称的组成识别,并基于机构名称的模板来对机构名进行模板识别,目前,机构名称的形式越来越多,使用模板识别的时候需要大量的匹配模板[7],将会导致模板匹配的准确率下降;由于同一个机构名多种不同标识的出现,便出现了编辑距离[8]、层次条件随机场[9]等来识别机构名称是否属于同一个机构的标识。国内主要是通过对中文机构名称的识别以及规范化来辅助科研工作者对机构的评价。
目 录
Abstract 1
Key words 1
引言 2
一、研究现状及研究目的 2
(一)规范化研究现状 2
(二)规范化研究存在的问题 2
(三) 研究目的 3
二、研究方法 3
(一)向量空间模型 3
(二)数据来源 4
(三)数据的清洗与统计 4
三、 机构名称自动识别算法 5
(一) 算法的主要流程 5
(二) 算法的功能实现 5
1.算法主要功能模块 5
2. 算法主要功能实现的方法与步骤 5
四、 结果与分析 6
(一)研究结果 6
(二)错误分析 7
五、结束语 7
致谢 8
参考文献 9
附表1:机构名算法识别结果列表(52条记录) 10
附表2:算法识别正确结果列表(45条记录) 12
附表3:人工识别结果列表(63条记录) 13
科研评价中的机构名称规范化研究
信息管理与信息系统专业学生 杨军威
指导教师 杨波
Evaluation of Scientific Research on Name Normalization
of Organizations
Student majoring in Information Management and Information System YAN *好棒文|www.hbsrm.com +Q: ^351916072*
G JunWei
Tutor YANG Bo
Abstract:Organization name as the basic elements of scientific evaluation plays a very important role in promoting the development of research and evaluation process. This paper describes the current situation and the significance of standardization of the English organization name, and with the literature data in the field of agricultural sciences from 2008 to 2012 of the Web of Science as the basic research agency data, analyzing the characteristics of the English institution name data to explore the relationship between the organization names. First identification with using the vector space model, and then using the zip code for the second identification, and finally achieving the automatic recognition algorithm of the organization names is to aid in the labor work of the standardization for English organization names. Through the experimental data, the experimental results can be seen that the method has a high recall and precision.
Key words: Institutional evaluation; Name Normalization; Organization Identification; Relationship;
引言
在当下这个网络和信息技术不断发展的时代,人们已经无法满足于从成果内容上获取文献信息资源。因此,他们希望通过文献计量学的原理和方法,从多个方面来分析评价科研机构的科研生产情况,把握科技研究现状已成为人们关心的重点问题。
作为《期刊论文描述元数据规范》中的重要元素修饰词“作者机构”,其名称的规范性直接影响着科技论文的检索以及在此基础上进行的学术评价和科研管理。因此,规范化作者机构名称在优化科技论文检索,提高文献信息分析评价功能等方面有着重要的作用。
本文通过编写机构名称自动识别算法对Web of Science(WOS)中的文献作者机构进行识别与规范,将同一机构的多个不同机构名称相互关联起来,实现英文机构名称的统一化与规范化,提高科研评价者的工作效率,方便科研评价者对机构、作者等进行更全面客观地评价。
一、研究现状及研究目的
科研评价活动中的最基本单元就是机构,作为科研活动的重要力量,机构评价越来越在科研评价发展等方面发挥着重要的作用。
(一)规范化研究现状
目前,国内不少研究者从机构名称规范化研究方面对科研评价进行研究,建立机构名规范标准成为机构名规范化的前提,机构名称规范化首先需要制定机构名的规范标准,如《团体名称界定范围与标目结构》、《中国规范记录格式》、CALIS联合目录规范格式,通过规范标准让机构名称数据在著录和检索过程中得到规范控制[1];其次就是构建机构名称数据库,如万方只是服务平台的中国科研机构数据库、全国组织机构代码信息数据库等。这些数据库收集了海量的机构信息,其中包括机构名的简称、别名、简介、机构类型与网站链接等,为科研评价者以及其他各领域的用户提供了一个相互交流合作的平台[2];最后则需要建立一个机构名称规范化文档,通过建立统一的机构名称规范文档,将同一个机构的别名、更名以及简称等添加到规范文档中,用其中的一个使用频次最高的机构名对同一机构的其他不同表达形式进行关联,从而达到对机构名称的唯一性标识的目的[3]。
在机构名识别方法方面,更多学者使用模板匹配,主要是对机构名称的组成识别,并基于机构名称的模板来对机构名进行模板识别,目前,机构名称的形式越来越多,使用模板识别的时候需要大量的匹配模板[7],将会导致模板匹配的准确率下降;由于同一个机构名多种不同标识的出现,便出现了编辑距离[8]、层次条件随机场[9]等来识别机构名称是否属于同一个机构的标识。国内主要是通过对中文机构名称的识别以及规范化来辅助科研工作者对机构的评价。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1851.html