豆瓣网信息爬取与数据分析(源码)【字数:6996】
摘 要在Internet快速发展的时代,Web分析工具已经成为我们这个时代不可或缺的一部分。对国内电影的数据进行可视化分析,从而使人们更直观地了解到电影的排名,电影的类别以及电影的产地与年份的分布情况,从而提高演员和导演对影视作品的关注, 研究网络爬虫的原理并实现爬虫的相关功能。通过基于Python的网络爬虫程序来爬虫豆瓣网站的相关数据,利用Matplotlib函数和Django框架对数据进行了可视化分析,并设计实现对豆瓣电影网上海量影视数据的采集,清洗,存储, 最后进行可视化显示。从多重角度对电影进行分析 ,同时也发现近五年电影的质量变化情况,中国电影的占比,最佳年份产量,最受欢迎的电影等;充分展现了Python在电影数据处理中的具体应用。在可视化方面的优异性,并且Python在简洁程度、编程等方面都要胜于其他绘图工具,具有较好地发展前景。
目 录
一、引言 1
(一)爬虫的背景和意义 1
二、开发工具 1
(一)开发工具介绍 1
三、数据爬虫的设计与实现 2
(一)网络爬虫概述 2
(二)数据的采集 2
四、数据的预处理 3
(一)数据的整理 4
(二)数据的存储 4
(三)数据的导入 8
五、数据分析模块 9
(一)分析同一年份上映的电影数量 9
(二)分析电影制片国家 9
(三)通过Matploblib函数进行数据分析 10
六、数据可视化模块 15
(一)基本概念 15
(二)设计原理 15
(三)可视化模块编程的实现 15
(四)豆瓣电影之排名分析 16
(五)豆瓣电影之类别分析 16
(六)豆瓣电影之产地与年份分析 17
(七)数据可视化的意义 18
七、总结 20
致 谢 21
参考文献 22
一、引言
(一)爬虫的背景和意义
随着互联网的发展,计算机技术的进步使人们的生活方式逐渐发生改变,在“ + Nternet +”的背景下,数据分析与 *好棒文|www.hbsrm.com +Q: &351916072&
可视化将成为学术界研究的热点。获得数据或不相关信息技术的大量信息,然后对其进行转换为有价值的信息和技术。 在查看数据之前,我们需要了解信息。 使用Python编写Web设计项目可以使从Web导入各种文档变得更加容易。 为了正确解决此问题,大多数软件开发人员都使用Internet来获取详细的豆瓣信息。本文选取豆瓣电影的排名,电影名称,年份,导演,评论人数等进行爬虫及分析,在爬取之前,使用Google的Chrome浏览器对网页进一步的数据分析。
二、开发工具
(一)开发工具介绍
Python的功能强大,并且容易理解,语法也相对来说比较简单,它适用于Windows、Linux以及其他的操作系统,Python是一种有关具有许多功能并快速变化的设备的语言。这使Python脚本适合于编写多个应用程序平台,尤其是脚本。
运行环境:Windows Server 2012 操作系统下的Python3.8环境,PyCharm 2020.1.2 x64,安装引入requests,beautifulsoup4库,Django框架等,以及Chrome浏览器。
用Django Python编写的是开源Web应用程序框架。 它与MVC模式相同:模型M,模板T和外观V。
功能如下表21
表21 功能图
层次
功能
模型(Model),数据存取层
处理数据相关的所有事物,即如何存取,验证,以及包含哪些行为和数据之间的关系。
模板(Template),业务逻辑层
处理和表现相关决定,在页面和其他文档中进行显示。
视图(View)表现层
存取模型和调取模板的相关逻辑。
三、数据爬虫的设计与实现
(一)网络爬虫概述
Web爬虫,又称作Web蜘蛛,是一个功能强大的程序,可以从网站检索信息。因此,这也是研究的重要组成部分。 最常用的搜索方法是首先测试一个或多个页面的网址,并在页面顶部获取URL。该系统已经存在,使访客变得更加困难。所以在进行爬虫的过程中对有些网站进行了调查。对有的网址链接应经过过滤,保存对话并将其写在地址栏上。 搜索之后,选择下一步以输入该行并重复该过程,直到该过程本身为止。 此外,我们分析爬虫所访问的所有网站,以进行跟踪和重复请求。 自动记录以进行过滤和检测。关于此过程的分析结果可能会为进一步的程序提供建议和指导。
(二)数据的采集
在整个数据采集的过程分为以下几步:首先检查URL以查看网页并显示默认的网页结构。其次指定数据文件创建文件并收集数据。重复上述两个步骤,直到数据收集结束。 搜索Web内容有两种方法:一种是Python库,另一种是使用常用词搜索内容。(三)分析及解析网页
首先,在解析网页之前,获取requests的get()方法;第二,获得页面:利用requests函数获取其中rootURL为入口链接,见图331。第三,解析页面:使用BeautifulSoup解析页面,通过确定每一个数据对应的元素及Class类名,使用find、findall、select等方法进行标签的定位,进行数据提取。第四,存储内容:形成film.html文件和电影链接,电影描述等。
在豆瓣电影上显示的网站与其他网站不同。 在现有页面的网站上找不到我们观看视频所需的特定信息,因此我们需要检查其影响。也就是他的路径。使用Chrome浏览器右击选择“检查”,在Network>XHR发现可以抓取链接到每一部电影的网页地址的变化规律,每一页网址的变化规律。如:
第一页:https://movie.douban.com/top250
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
每页最多可包含25部电影。这意味着总共250部电影中的10页。检查第一页的URL;这行很容易找到; 这意味着启动后(参数1)等于*25。假设已移除过滤器。其中,tag为查询电影的类型,sort为排序方式。
目 录
一、引言 1
(一)爬虫的背景和意义 1
二、开发工具 1
(一)开发工具介绍 1
三、数据爬虫的设计与实现 2
(一)网络爬虫概述 2
(二)数据的采集 2
四、数据的预处理 3
(一)数据的整理 4
(二)数据的存储 4
(三)数据的导入 8
五、数据分析模块 9
(一)分析同一年份上映的电影数量 9
(二)分析电影制片国家 9
(三)通过Matploblib函数进行数据分析 10
六、数据可视化模块 15
(一)基本概念 15
(二)设计原理 15
(三)可视化模块编程的实现 15
(四)豆瓣电影之排名分析 16
(五)豆瓣电影之类别分析 16
(六)豆瓣电影之产地与年份分析 17
(七)数据可视化的意义 18
七、总结 20
致 谢 21
参考文献 22
一、引言
(一)爬虫的背景和意义
随着互联网的发展,计算机技术的进步使人们的生活方式逐渐发生改变,在“ + Nternet +”的背景下,数据分析与 *好棒文|www.hbsrm.com +Q: &351916072&
可视化将成为学术界研究的热点。获得数据或不相关信息技术的大量信息,然后对其进行转换为有价值的信息和技术。 在查看数据之前,我们需要了解信息。 使用Python编写Web设计项目可以使从Web导入各种文档变得更加容易。 为了正确解决此问题,大多数软件开发人员都使用Internet来获取详细的豆瓣信息。本文选取豆瓣电影的排名,电影名称,年份,导演,评论人数等进行爬虫及分析,在爬取之前,使用Google的Chrome浏览器对网页进一步的数据分析。
二、开发工具
(一)开发工具介绍
Python的功能强大,并且容易理解,语法也相对来说比较简单,它适用于Windows、Linux以及其他的操作系统,Python是一种有关具有许多功能并快速变化的设备的语言。这使Python脚本适合于编写多个应用程序平台,尤其是脚本。
运行环境:Windows Server 2012 操作系统下的Python3.8环境,PyCharm 2020.1.2 x64,安装引入requests,beautifulsoup4库,Django框架等,以及Chrome浏览器。
用Django Python编写的是开源Web应用程序框架。 它与MVC模式相同:模型M,模板T和外观V。
功能如下表21
表21 功能图
层次
功能
模型(Model),数据存取层
处理数据相关的所有事物,即如何存取,验证,以及包含哪些行为和数据之间的关系。
模板(Template),业务逻辑层
处理和表现相关决定,在页面和其他文档中进行显示。
视图(View)表现层
存取模型和调取模板的相关逻辑。
三、数据爬虫的设计与实现
(一)网络爬虫概述
Web爬虫,又称作Web蜘蛛,是一个功能强大的程序,可以从网站检索信息。因此,这也是研究的重要组成部分。 最常用的搜索方法是首先测试一个或多个页面的网址,并在页面顶部获取URL。该系统已经存在,使访客变得更加困难。所以在进行爬虫的过程中对有些网站进行了调查。对有的网址链接应经过过滤,保存对话并将其写在地址栏上。 搜索之后,选择下一步以输入该行并重复该过程,直到该过程本身为止。 此外,我们分析爬虫所访问的所有网站,以进行跟踪和重复请求。 自动记录以进行过滤和检测。关于此过程的分析结果可能会为进一步的程序提供建议和指导。
(二)数据的采集
在整个数据采集的过程分为以下几步:首先检查URL以查看网页并显示默认的网页结构。其次指定数据文件创建文件并收集数据。重复上述两个步骤,直到数据收集结束。 搜索Web内容有两种方法:一种是Python库,另一种是使用常用词搜索内容。(三)分析及解析网页
首先,在解析网页之前,获取requests的get()方法;第二,获得页面:利用requests函数获取其中rootURL为入口链接,见图331。第三,解析页面:使用BeautifulSoup解析页面,通过确定每一个数据对应的元素及Class类名,使用find、findall、select等方法进行标签的定位,进行数据提取。第四,存储内容:形成film.html文件和电影链接,电影描述等。
在豆瓣电影上显示的网站与其他网站不同。 在现有页面的网站上找不到我们观看视频所需的特定信息,因此我们需要检查其影响。也就是他的路径。使用Chrome浏览器右击选择“检查”,在Network>XHR发现可以抓取链接到每一部电影的网页地址的变化规律,每一页网址的变化规律。如:
第一页:https://movie.douban.com/top250
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
每页最多可包含25部电影。这意味着总共250部电影中的10页。检查第一页的URL;这行很容易找到; 这意味着启动后(参数1)等于*25。假设已移除过滤器。其中,tag为查询电影的类型,sort为排序方式。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/190.html