科技专家成果的关联挖掘(源码)

为了改善获取专家信息的使用价值,提高专家信息的完全率,设计实现一种基于关联挖掘的科技专家信息挖掘系统。关联挖掘以互联网上的高校网站、中国知网以及SooPAT专利网站等提供专家信息作为研究背景。通过对专家信息的Web爬取、关联挖掘模型和页面分析来设计与应用,在挖取江苏省45个本科院校和三甲医院专家信息的基础上,取得了良好的效果。针对抓取知网上数据库和SooPAT专利数据库上信息,设计并实验了科技专家的关联算法模型,实验取得抓取关联论文86%和专利98%的挖全率,为系统设计提供了数据支撑。提供给职能部门或科技型企业用户浏览,满足政府科技职能部门和科技型企业对科技专家的成果信息需求。关键词 科技专家信息,关联挖掘,Web挖掘,网络爬虫目 录
1 引言 2
1.1 课题背景 2
1.2 国内外研究现状 3
1.3 课题来源 6
2 关键技术研究 6
2.1 关键技术 7
2.2 Web爬虫研究 7
2.3 网页分析 11
2.4 多线程爬虫分析 12
2.5 爬虫集模型研究 14
2.5 正则表达式 14
2.6 Beautiful Soup的使用 15
2.7 专家信息关联挖掘 15
3 系统总体设计 17
3.1 系统设计 17
3.2 网络爬虫功能模块实现 21
4 Web前端设计 29
5 数据库设计 32
5.1 数据库ER图 32
5.2 表单设计 33
6 实验结果 37
6.1 网络爬虫测试 38
6.2 关联数据测试 38
总 结 40
致 谢 41
参 考 文 献 42
附录 1 用户操作手册 44
附录 2 发明专利 50
附录 3 论文 51
1 引言
1.1 课题背景
在过去的20多年间,各个领域的数据大规模的增长,包括在金融、互联网、建筑以及在生活中 *好棒文|www.hbsrm.com +Q:  3_5_1_9_1_6_0_7_2 
2 关联数据测试 38
总 结 40
致 谢 41
参 考 文 献 42
附录 1 用户操作手册 44
附录 2 发明专利 50
附录 3 论文 51
1 引言
1.1 课题背景
在过去的20多年间,各个领域的数据大规模的增长,包括在金融、互联网、建筑以及在生活中的各方面的数据都在不断的喷薄而出。国际数据公司( IDC)报告称随着互联网成为人们必不可少的元素时,人们每天通过便捷的互联网发布和获取文档,这也让互联网成为数据信息的汇聚地。根据网络巨头Google发布的一份官方报告中,互联网上的网站和文档已超过千亿,并且这已数据还在每天的增长。在2013年,国际著名的数据公司(IDC)报告称[1],全球在互联网上产生的数据已经达到了4.4ZB并且每年都在以数倍的速度增长,到2020年,全球数据将高达44ZB。在这种背景下,无论是商业还是对于政府来说,都需要一个革命性的新技术来解决当前的难题,而大数据的这一概念的到来就犹如久旱的甘雨一般。2008年,阿里巴巴创始人马云通过使用海量数据成功的预测了 金融危机,大数据可以通过海量的数据分析出未来的风险。Web虽然给人们带来了巨大的方便,但面对海量的数据,一般用户往往不知所措。随着数据库技术的不断发展以及数据库中的数据不断的增长,导致一些简单的数据统计已经无法满足企业,只依靠数据库提供的检索机制以及统计方法是远远不足已满足商业、生活中的需要,因此波切的需要自动智能的将处理数据转化为用户感兴趣的信息,从而达到一定的决策指导的作用。在这种情况下,一种革新型的新技术顺应而生,这就是数据挖掘技术。数据挖掘正是在这种时代背景下,迎合时代的需求,并快速的发展起来的一种革命性的技术。
图1.1数据挖掘过程
从已有的数据中去发现知识[2],这一概念从第11届人工智能会议上被提出,在随后的几年中,都举行了KDD讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。在随后加拿大举办的KDD国际会议上,由Fayyad、Piatetsky-Shapiro和Smyth提出数据挖掘和知识发现的定义[3]。计算机进入机器学习阶段以来,人工智能发面也获得了巨大的进展,这也让数据挖掘有了更大发展的基石。现在,数据挖掘知识已经形成了一套完整的体系结构,在各行各业中也扮演着重要的角色,引起了各方面专家的重视。例如,2014年8月召开的第20届知识发现与数据挖掘会议中的“SamplingforBigData”专题。
图1.2典型的数据挖掘系统结构
近些年中,一些技术开始趋向时代的潮流,定位于数据库的知识挖掘上,比如在磁盘上进行挖掘。在这种情况下,数据挖掘的到来犹如给人们打开了一扇门,多种新的研究方向喷薄而出,比如关系型数据库、面向对象数据库的挖掘等等。由于万维网在生活中的广泛普及,出现了基于异构的数据挖掘,比如文档挖掘、电子商务系统的信息挖掘等等。随着研究人员的不断深入研究,技术不断的发展,无论实在多媒体数据还是在时态数据上,都引起了社会上的普遍关注。
1.2 国内外研究现状
数据挖掘是从海量数据中发现隐藏有价值的信息,近些年,无论是在国外,还是在国外,人们在生活中产生的数据不断的累增,这使得商业需要去发现这些数据间的“宝藏”,这这种时代背景下,数据挖掘得到了巨大的动力,无论实在商业、通信还是在科研领域都得到了广大的关注。目前数据挖掘的主要可分为这5类[4],规则提取、模糊识别、分类聚类等等。
国外研究现状
在国外,大数据吸引了人们广泛的关注。著名的数据专家JimGray提出了科学研究的“第4种范式”,即以数据处理为中心的数据思维。以及在数据挖掘对贝叶斯算法[5]和Boosting方法[6]的研究和改进;在实际中通过KDD方法解决统计学中的问题。
在美国大型银行、保险公司和销售行业等行业都成立了相关的数据挖掘研究机构,来研究未来中的行业风险或挖掘出潜在的数据价值。其中典型的是在天文学上,科学家们将数据挖掘应用到天文学中,使得对天文学方面做出了巨大的贡献,这系统也是典型的早起通过数据挖掘运用到实际中的案例之一。生物学研究上,研究员通过数据挖掘技术对DNA进行分析,通过分析DNA信息来获取生物信息能使医学家和生物学家发现感兴趣的信息[7];利用关联规则对顾客的数据进行分析,进而能更方便的为不同的用户推荐商品[8];通过数据挖掘技术对银行和保险公司进行预测,防止诈骗行为等等[9]。IBM公司Agrawal等人最早取得了关联规则挖掘有关的三项专利[10],通过数据挖掘技术中的关联规则算法,应用到实际的工作、商业和生活中,获得了难以想象的效果。同时,数据挖掘技术也在万维网中得到了广泛的应用,无论问实在搜索引擎,还是在电子商务中,都表现出卓越的效果。这几年关联挖掘也一直都是学者研究的热点,现已经发展为包括确定性关联规则、广义关联规则的挖掘、量化关联规则的挖掘等理论[11-13]。关联规则是为了发现数据库的数据之间的关系,例如沃尔玛的一个例子,通过大量的数据分析,一般的顾客买面包后都会再去买啤酒,在这其中Apriori算法[14]是最为著名的关联规则算法,之后Agrawal等人又提出了快速算法,大大提高了Apriori算法性能。Park等人在S

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2688.html

好棒文