基于Python的青年大数据中心数据采集模块的设计与实现

目 录
第1章 绪论 - 1 -
1.1 研究背景 - 1 -
1.2 国内外研究现状 - 1 -
1.3 研究目的和意义 - 2 -
第2章 青年大数据中心数据采集系统需求分析 - 3 -
2.1研究目标 - 3 -
2.2 需求分析 - 3 -
2.3 可行性研究 - 4 -
2.3.1 经济可行性分析 - 4 -
2.3.2 技术可行性分析 - 4 -
2.3.3 法律可行性分析 - 4 -
第3章 青年大数据中心数据采集系统的设计 - 5 -
3.1 系统总体设计 - 5 -
3.2 各功能模块的设计 - 5 -
3.2.1 数据抓取模块设计 - 5 -
3.2.2 数据解析模块设计 - 6 -
第4章 青年大数据中心数据采集系统功能的实现 - 7 -
4.1 数据抓取功能的实现 - 7 -
4.1.1 新闻网站(凤凰网)的青年数据抓取 - 7 -
4.1.2 论坛(百度百家)青年数据的抓取 - 8 -
4.1.3 社交平台(青年之声)青年数据的抓取 - 10 -
4.2 青年数据解析功能的实现 - 11 -
第5章 青年大数据中心数据采集系统的测试 - 14 -
5.1 功能测试 - 14 -
5.2 性能测试 - 15 -
总结与展望 - 17 -
参考文献 - 18 -
第1章 绪论
1.1 研究背景
信息技术的发展在促进传统产业革新化的同时, *好棒文|www.hbsrm.com +Q: ^3^5`1^9`1^6^0`7^2# 
也催生了物联网、互联网+、电子商务等许多相关产业,例如智能城市、智能交通、高端装备制造等[1]。现代信息技术在带动各行各业发展和前进的同时,大数据的出现也给现代信息化技术带来了较大的考验[2]。随着各行业所有数据垂直式的增长,使得传统的信息技术难以解决数据的采集、格式、应用等诸多问题,阻碍了数字社会、智能社会以及网络化社会的实现[3]。
由最近国际著名咨询公司IDC的统计和分析可以得出,未来的全球数据总量每隔18个月将会翻上数倍,到2020年该数据总量可能将会达到35ZB,比2007年的所有数据多200多倍以上[4],上述的调查与统计预示着TB、PB、EB级别的数据存储单位已经远远不够用了,“泽它(Zetta)时代”将在全球展开,而数据采集作为大数据时代的前奏,已经显得尤为重要,即所有有价值信息的获取和大数据技术的分析都离不开对相关数据的采集[5]。
目前,面临的最大问题是绝大多数的企业都很难判断出哪些数据未来将有可能成为资产,或者通过什么样的方式将手里的数据提炼成为现实收入,对于这一点来说,即便是大数据服务企业也都很难给出明确的答案[6]。但有一点可以肯定,在大数据时代,谁掌握了足够多的数据,谁就有可能掌握未来的发展,现在的数据采集无疑将成为将来的资产积累[7]。
1.2 国内外研究现状
1997年,美国国家安全局(NSA)已经拥有了与大型运动场大小的私有的数据中心并能够处理大量的数据集[8]。而现今,行业的用户已经可以通过自建的数据中心或者外包到第三方的数据服务公司,使用各类现成的分布式的存储计算平台,挖掘和采集出成千上万的数据资料[9]。可以说,发展大数据技术已经成为各个国家的重要战略,而有关数据的采集即大数据的数据来源问题也将引起各国的密切关注[10]。
目前,国内的数据采集技术大都是采用java语言面向对象的思想,使用搜索引擎技术做底层数据检索支持,又或人工搜集的方式去采集数据,对数据的来源、内容、格式没有一个明确的规则和标准去分类[11],只是批量存放到数据库中,不能根据数据的特性精确的查找到有价值的数据,并且由于数据来源地址不同,很难实现数据之间的对接,这很大程度上降低了数据采集的效率,增加了数据采集的复杂度[12]。
1.3 研究目的和意义
大数据中心数据采集系统的设计目的就是将网络中的有关青年话题的数据信息抓取和解析,解决我们生活中所遇见的所需数据不知如何获取,或者数据格式不统一,数据杂乱无章,无法搜集等诸多棘手的问题[13]。大数据中心数据采集技术的实现,可以把网络中的青年数据按照规范式,可操作的格式输出到文本中,为学院青年数据的研究提供相关的数据支持,建立青年话题研究数据库,存储于大数据中心,也可以方便其他用户借助学院青年数据平台精确的查找到自己所需要的数据。
青年大数据中心平台的数据采集主要是基于Python工具对新闻网站(凤凰网)、论坛(百度百家)、互动社交平台(青年之声)等网络资源中的青年热点话题数据进行自动抓取并使用Python对采集到的数据进行实时性解析,以文本的形式将关于当前青年热点话题的具有实用性价值的青年数据信息输出,为青年数据研究机构、组织和个人提供研究上的支持[14]。
基于Python的数据采集技术能够运用爬虫技术实时性捕捉到新闻网站、博客 *好棒文|www.hbsrm.com +Q: ^3^5`1^9`1^6^0`7^2# 
、论坛等网络资源中的青年数据,保证数据的及时性和准确性[15],另外,该数据采集系统运用Python语言工具编译,能够将从互联网中抓取到的数据进行解析,使大量的青年话题数据按照一种分类标准、模式去存储,归类出符合特性条件的数据集合,使各种来源的数据都解析成同种类型的数据形式,存储于大数据中心的后台数据库中,以方便后续其他业务的数据支持[16]。大数据下的数据采集大大加速了对网络青年数据采集能力的转换运用数据采集关键开发技术,搜集网络资源中大量的青年话题数据,进行规则分类,为相关数据需求用户提供了强有力的数据支撑平台,方便用户对数据的查询和使用[17]。
第2章 青年大数据中心数据采集系统需求分析
2.1研究目标
大数据中心平台的建设基础是大量相关数据的获取,因此数据的采集技术就成为了大数据中心后期存储与分析的必要条件[18]。即所有数据的分析与应用都必须在数据采集之后才能够开展。其实,大数据技术的主要意义在于对所获取的相关数据进行智能化的处理与实践,从中挖掘和分析出对自己有使用价值的数据信息,但这些结果的实现是以具有大量的数据调用为前提的[19]。
本系统运用数据采集技术将网络资源中海量的青年话题数据抓取和解析,并把有价值的青年大数据依据某一规则汇总,为大数据平台Hadoop及其相应的大数据管理技术对数据进一步的分析和处理提供前期准备,验证Python工具的实际可操作性,数据采集处理的高效性和重要性,对数据收集工作者和数据需求者来说,具有很大的实践意义[20]。
青年话题内容的数据采集就是从互联网上对各类网络资源,如新闻网站、论坛、搜索引擎、社交平台等各类网站的青年数据内容进行数据获取的过程,该系统数据采集的内容主要包括青年网站的标题、网址、内容等,并将青年数据内容以可直接利用的文本格式输出,为学院青年大数据中心提供海量的网络青年数据。
2.2 需求分析
本文拟运用Pycharm编译平台及Python语言工具对青年大数据中心数据采集系统进行研究与设计,实现对当前网络资源中的青年热点话题数据进行抓取与输出,系统主要功能主要包括数据抓取模块和数据解析模块,以及获取青年数据的更新实时性问题,热点话题确定及网页去重技术问题,其中数据抓取模块分别从新闻网站、论坛、社交平台三个方面实现抓取功能,数据解析模块用于将网络数据UTF-8格式转化为CSV文本格式,如图2-1。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2986.html

好棒文