科研人力资源网站的识别与抽取


目录
摘要 2
关键词 2
Abstract 2
Key words 2
一、相关研究 3
(一)信息抽取技术 3
(二)命名实体识别技术 4
(三)国内外人物信息提取现状 4
二、数据收集与清洗 4
(一)数据采集 4
(二)数据清洗 5
1.部分清洗 5
2.彻底清洗 6
三、建立规则模型并抽取信息 6
(一)姓名和部门 6
(二)联系方式 7
(三)邮箱 8
(四)职称 8
(五)研究方向 8
四、数据分析与评价 9
五、科研人力资源网站关键词抽取 10
(一)网页正文的获取 10
(二)关键词抽取 10
六、结论及展望 11
(一)优点与不足之处 11
1.优点 11
2.不足之处 11
(二)展望 11
致谢 12
参考文献 12
表2 各字段抽取情况统计 9
科研人力资源网站的识别与抽取
引言
随着互联网的普及,人们在日常生活中,越来越依赖网络来帮助他们了解信息,解决问题,特别是关于他们感兴趣的人物的信息,但是互联网信息的爆炸式增长,使得人们想要从大量繁杂的互联网网页信息中获得特定人物的信息变得越来越困难。因此,有关人物信息抽取的研究逐渐就成为信息抽取领域关注的热点。目前已有一些人物关系信息抽取系统,如:微软的“人立方”和雅虎的“中文人物搜索”等,但是这些系统的抽取信息的准确度都有待提高。本文提出了一种基于HTML网页标签和结构规则的信息抽取方法,实现了从美国大学科研人员网页中提取姓名,联系方式,邮箱等相关属性。
相关研究
信息抽取技术
20世纪90年代初,信息抽取技术飞速发展,这主要得益于消息理解会议(MUC)[1]的召开。在会议上,各种规范和评价体系逐渐被定义,同时也成为了信息抽取研究事实上的标准,极大的推动了信息抽取研究的发展
 *好棒文|www.hbsrm.com +Q: %3^5`1^9`1^6^0`7^2# 
。此外,一系列信息抽取领域的国际测评会议的召开也对信息抽取技术的发展起到了很大推动作用。早期的信息抽取方法大多采用基于规则的方法,后来随着机器学习领域的发展,支持向量机、条件随机场、隐马尔科夫等方法被逐渐运用到信息抽取研究中。随着Web的出现和发展,web信息抽取成为了一个新的研究热点。在研究上,IE研究人员提出了算法和系统。其中最知名的研究项目是卡耐基梅隆大学“自动学习和发现中心(Center for Automated Learning and Discovery)”的“Web挖掘(Mining the World Wide Web)”项目。该项目的目的在于:通过自动地从Web中提取事实,来创建结构化的、大型的有用事实的数据库。他们运用的主要技术手段是机器学习算法,通过大量样本的训练,能够自动提取信息。用户首先定义要被提取的类和关系,并通过Web提供训练样本,系统使用这些训练数据学习通用的信息提取步骤,然后按照这个步骤从其他Web页面中提取信息。他们已经开发了许多学习算法,包括:(1)firstorder规则学习算法;(2)文法推断算法(Grammar Inference)。实验已经证明,这些方法能够提取关于大学教员、学生、课程和研究项目的信息,并且数据结果的准确率和查全率都比较满意 [2]。
Web信息抽取方法的分类可以有很多种。根据自动化程度可分为手工,半自动和全自动。根据方法原理可分为基于自然语言处理的数据抽取方式、基于包装器的数据抽取方式、基于Ontology的数据抽取方式、基于HTML结构的数据抽取方式等[3]。
基于自然语言理解的方法首先通过标识来建立短语和语句元素间的关联,然后用给定的例子学习抽取规则。这些规则从语义和语法上来定位元素。具体来说,就是把文本分割成多个子句、对每个句子的子句成分进行标记,然后将分析好的句子和实现定制的语言模式匹配,以获得子句的内容。规则可以人工编制,也可以从人工标注的语料库中自动学习获得。
包装器就是一个能将在HTML网页中的数据提取并将其结构化的软件程序。一般而言,一个包装器只能处理一种特定的信息源。要对不同类型的 Web 页面进行数据抽取,就需要有不同的包装器。与此相关的研究,基本集中在抽取算法的研究和包装器(Wrapper)的自动(或半自动)生成上。
基于 Ontology的方法主要依赖一个完全的知识库。采用该方法,首先需要某领域内的知识专家以人工的方式编写该应用领域的本体,包括对象的模式信息、常值、关键字的描述信息。这种方法根据专家编写的描述信息产生抽取规则,对每个系统根据边界分隔符和触发信息分割好的无结构的文本块进行抽取,获得各语义项的值,最后将抽取出的结果放入数据库中。
基于HTML结构的抽取方法,该方法主要依据HTML页面自身结构的特点,因此具有非常强的自动化能力,也是自动化性能比较高的数据抽取方式。该方法将HTML文档转化为语法树,然后再利用其他抽取方法从树中提取信息。
命名实体识别技术
本文针对的是有关科研人员的网站信息抽取,因此会需要抽取人名。而人名的抽取是在信息抽取中的一大难题。因此本文拟采用基于词典的命名实体识别技术并结合网页HTML标签的规则来抽取人名。命名实体识别的主要任务就是识别出文本中的人名,地名等专有名词和有意义的时间、日期等数量短语,并加以归类[4]。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中必不可少的组成部分。由于命名实体是未登录词中数量最多、识别难度最大、对分词效果影响最大的问题,甚至据相关研究显示,由未登录词造成的分词精度降低比歧义大5倍以上[5],可见命名实体地位的重要。命名实体识别的主要技术方法有:基于规则和词典的方法、基于统计的方法、两种相结合的方法等。后两种使用最多。基于规则和词典的方法多采用语言学专家手工构造规则模板,选用特征,以模式和字符串相匹配为主要手段,这是命名实体识别中最早使用的方法。而基于统计机器学习的方法主要包括:隐马尔可夫(HMM)模型、最大熵(ME)模型、支持向量机(SVM)模型、条件随机场(CRF)模型等等。《基于规则和统计相结合的中文命名实体识别研究》[6]一文就采用了组合的方法,提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并采用人民日报语料进行训练和测试,最终的识别率基本令人满意。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/903.html

好棒文