英文著作者
1由于近年来我国科研的发展,越来越多的国内学者在国外期刊上发表论文,能否快速的识别出华人著作者的文献,成为了信息计量的一个需求。根据中文姓名英译规则与华人姓名的特点,提出了使用贝叶斯分类算法识别英文著作者姓名中的华人名。通过使用贝叶斯分类算法计算待检测姓名字符串成为华人姓名的概率,可以有效地识别出英文文献中著作者为华人名的姓名。方法的识别简单,识别的召回率与准确率较高,可以获得比较好的华人姓名识别效果。
材 料 目 录
序号
名 称
数量
备 注
1
毕业论文(设计)开题报告
1
2
毕业论文(设计)中期检查表
1
3
毕业论文(设计)正本
1
4
毕业论文(设计)指导教师审查意见表
1
5
毕业论文(设计)评阅教师评阅意见表
1
6
毕业论文(设计)答辩记录和综合评定成绩表
1
7
其它
2014 年 6 月 6日
本科生毕业论文(设计)
题 目:
英文著作者姓名中的华人名识别方法研究
姓 名:
刘亚骏
学 院:
信息科学技术学院
专 业:
信息管理与信息系统
班 级:
信息101
学 号:
19110106
指导教师:
杨波 职称: 副教授
2014年5月10日
大学教务处制
目 录
*好棒文|www.hbsrm.com +Q: ¥351916072¥
/> Abstract 1
Key words 1
一、引言 2
二、华人姓名英译规律 3
(一)华人姓名英译的多样化 3
(二)大陆地区的外译情况 3
1.不带连字符且不进行缩写 3
2.带连字符且不进行缩写 3
3.不带连字符且进行缩写 3
4.带连字符且进行缩写 3
(三)港台地区的外译情况 4
(四)特殊外译情况 4
三、基于贝叶斯分类法的华人姓名识别研究 4
(一)贝叶斯算法的选择 4
(二)基于贝叶斯分类法的华人姓名识别算法 5
1.华人姓氏英文字母样本集的收集 5
2.非华人姓氏英文字母样本集的收集 5
3.华人名字英文字母样本集的收集 5
4.非华人名字英文字母样本集的收集 5
5.算法初步策略 5
6.的计算方法 6
6.的计算方法 6
(三)基于贝叶斯分类法的华人姓名识别过程 6
五、算法评价 7
(一)评价标准 7
(二)算法评价 7
参考文献 8
表1华人姓氏英文样本集5
表2华人名字英文样本集6
表3类别的列联表7
表4识别统计表8
表5识别正确判断的华人姓名8
表6识别错误判断的姓名8
表7未识别的华人姓名8
文著作者姓名中的华人名识别方法研究
信息管理与信息系统专业学生 刘亚骏
指导教师 杨波
Research on Chinese name identification of english authors name
Student majoring in Information Management and Information System LIU Yajun
Tutor YANG Bo
Abstract:Due to the development of scientific research in China in recent years, more and more domestic scholars in foreign journals published papers, can quickly identify the literature of Chinese authors, became a demand information Bibliometrics. Based on Chinese names translation of the rules and characteristics of Chinese names, a method which used Bayes algorithm to indentify Chinese name in english paper was presented. By using Bayes classification algorithm to calculate the probability whether a english character string should be a Chinese name, all Chinese name in enligh authors name could be indentified efficiently. This method has simple process of indentify and excellent precision and recall.It can get a good result for Chinese name indentification of english authors name.
Keywords: Text categorization; Chinese name identification; Bayesian classification algorithm
材 料 目 录
序号
名 称
数量
备 注
1
毕业论文(设计)开题报告
1
2
毕业论文(设计)中期检查表
1
3
毕业论文(设计)正本
1
4
毕业论文(设计)指导教师审查意见表
1
5
毕业论文(设计)评阅教师评阅意见表
1
6
毕业论文(设计)答辩记录和综合评定成绩表
1
7
其它
2014 年 6 月 6日
本科生毕业论文(设计)
题 目:
英文著作者姓名中的华人名识别方法研究
姓 名:
刘亚骏
学 院:
信息科学技术学院
专 业:
信息管理与信息系统
班 级:
信息101
学 号:
19110106
指导教师:
杨波 职称: 副教授
2014年5月10日
大学教务处制
目 录
*好棒文|www.hbsrm.com +Q: ¥351916072¥
/> Abstract 1
Key words 1
一、引言 2
二、华人姓名英译规律 3
(一)华人姓名英译的多样化 3
(二)大陆地区的外译情况 3
1.不带连字符且不进行缩写 3
2.带连字符且不进行缩写 3
3.不带连字符且进行缩写 3
4.带连字符且进行缩写 3
(三)港台地区的外译情况 4
(四)特殊外译情况 4
三、基于贝叶斯分类法的华人姓名识别研究 4
(一)贝叶斯算法的选择 4
(二)基于贝叶斯分类法的华人姓名识别算法 5
1.华人姓氏英文字母样本集的收集 5
2.非华人姓氏英文字母样本集的收集 5
3.华人名字英文字母样本集的收集 5
4.非华人名字英文字母样本集的收集 5
5.算法初步策略 5
6.的计算方法 6
6.的计算方法 6
(三)基于贝叶斯分类法的华人姓名识别过程 6
五、算法评价 7
(一)评价标准 7
(二)算法评价 7
参考文献 8
表1华人姓氏英文样本集5
表2华人名字英文样本集6
表3类别的列联表7
表4识别统计表8
表5识别正确判断的华人姓名8
表6识别错误判断的姓名8
表7未识别的华人姓名8
文著作者姓名中的华人名识别方法研究
信息管理与信息系统专业学生 刘亚骏
指导教师 杨波
Research on Chinese name identification of english authors name
Student majoring in Information Management and Information System LIU Yajun
Tutor YANG Bo
Abstract:Due to the development of scientific research in China in recent years, more and more domestic scholars in foreign journals published papers, can quickly identify the literature of Chinese authors, became a demand information Bibliometrics. Based on Chinese names translation of the rules and characteristics of Chinese names, a method which used Bayes algorithm to indentify Chinese name in english paper was presented. By using Bayes classification algorithm to calculate the probability whether a english character string should be a Chinese name, all Chinese name in enligh authors name could be indentified efficiently. This method has simple process of indentify and excellent precision and recall.It can get a good result for Chinese name indentification of english authors name.
Keywords: Text categorization; Chinese name identification; Bayesian classification algorithm
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1924.html