python的网络爬虫与数据分析的研究与实现【字数:10299】

摘 要随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。而这种对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫,在爬取内容的基础上实现数据的可视化作为数据分析的直观表现。而作为拥有丰富的正则表达式函数以及很多访问Web页面的函数库的python语言自然而然成为了我们实现网络爬虫和数据分析的首选编程语言。本文介绍的是通过对网易云音乐进行爬取得到目标歌曲的评论并采取词频统计和情感分析对爬取的评论进行数据分析,最终以可视化的方式呈现出来以此完成课题目标。
目录
1.引言 1
1.1 课题研究背景、状况及发展趋势 1
1.2 课题研究意义及其主要研究内容 2
2.开发环境与技术 3
2.1开发环境 3
2.2 关键技术简介 3
2.2.1 Python 3
2.2.2 Requests库 3
2.2.3 Tktinter库 3
2.2.4 结巴分词 4
2.2.5 词云WordCloud 4
3.项目需求与设计 6
3.1 交互界面设计 7
3.2 网络爬虫模块设计 8
3.2.1目标信息爬取 8
3.2.2 数据解析和存储 8
3.3 数据分析模块设计 8
3.3.1词频统计 8
3.3.2 情感分析 9
4. 项目实现 10
4.1 交互界面 10
4.1.1窗口实现 10
4.1.2 数据输入 11
4.1.3 系统入口 12
4.1.4 运行状况显示 12
4.2 网络爬虫 13
4.2.1 获取歌曲排行榜 13
4.2.2 数据解析 14
4.3 数据分析 15
4.3.1 文本情感分析 15
5.系统测试 18
5.1 测试用例说明 18
5.1.1 模块测试 *好棒文|www.hbsrm.com +Q: &351916072& 
阶段 18
5.1.2 系统整体测试阶段 18
5.2 测试环境 18
5.3 模块测试 18
5.3.1 界面生成测试 18
5.3.2 url连接测试 19
5.3.3 数据解析与输出测试 20
5.4 整体测试 21
结语 30
参考文献 31
致谢 32
1.引言
随着网络的普及以及日渐广泛的应用,网络成为大量信息的载体并促使了大数据时代的来临。快速获取所需的信息并对其进行必要的分析也将为个体和组织进行社会活动提供指导作用。而能够自动高效地获取网络中我们感兴趣的信息并为我们所用是一个重要的问题,而网络爬虫和数据分析技术就是为了解决这些问题而生的。本文将通过介绍如何通过爬取网易云音乐当前某排行榜中的热门歌曲的热门评论并进行数据可视化的案例来完成对网络爬虫与数据分析的研究实现。
1.1 课题研究背景、状况及发展趋势
随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。我们感兴趣的信息分为不同的类型:如果只是做搜索引擎,那么感兴趣的信息就是互联网中尽可能多的高质量网页;如果要获取某一垂直领域的数据或者有明确的检索需求,那么感兴趣的信息就是根据我们的检索和需求所定位的这些信息,此时,需要过滤掉一些无用的信息。前者我们称为通用网络爬虫,后者我们称为聚焦网络爬虫。[1]
网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称为网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。举一个简单的例子,假设你在本地新开了一家以外卖生意为主的餐馆,现在要给菜品定价,此时便可以开发一个爬虫程序,在美团、饿了么、百度外卖这些外卖网站爬取大量其他餐馆的菜品价格作为参考,以指导定价。[2]
与数据挖掘(Data Mining)极为相似的术语从数据库中发现知识(KDD)一词,首次出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。1993年以后,美国计算机协会(ACM)每年都举行了专门的会议研究探讨数据挖掘技术(KDD会议)。KDD会议的规模由原来的专题讨论会发展到国际学术大会。研究重点也逐渐从发现方法转向系统应用。并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。
国外的研究重点从发现方法转向系统应用直到专享大规模的综合系统开发,并且注重多种发现策略和技术的集成。
与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目。目前从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究。
1.2 课题研究意义及其主要研究内容
随着大数据时代的来临,互联网的数据爆炸式的增长,而利用python爬虫用户可以获取大量有价值的数据,进而利用python将这些分散的、复杂的、抽象的网络数据进行分析管理,将之转换成用户可以接受的方式,比如图、表等可视化形式。如此用户可以对数据更有效的利用。
在本课题中需要对目标网站网易云音乐进行爬取,收集目标歌曲的评论信息作为我们进行数据分析的材料,最后将经过分析的数据进行可视化操作呈现给用户。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/194.html

好棒文