二手车网站数据爬取与分析(附件)【字数:7274】


目 录
一、引言 1
(一) 项目背景和意义 1
(二) 项目介绍 1
二、关键技术介绍 1
(一)Scrapy技术 1
(二)Pandas技术 2
(三)Javascript技术 2
(四)PyCharm 2
(五)Ehcarts 2
三、 网站数据爬取 3
(一)网站结构分析 3
1.网站反爬机制的分析 3
2. 分析反爬策略 4
(二)爬取数据 4
1.编写爬虫与中间件 4
2.数据爬取 5
(三)数据展示 5
四、数据预处理 6
(一)清理数据 6
五、数据分析与可视化 7
(一)描述性分析 7
1.各品牌二手车占比 8
2.二手车排放标准 9
3.二手车辆保值率 9
4.全国二手车分布图 10
(二)数据详细分析与可视化 11
(三)可视化大屏展示 12
六、总结 16
致谢 17
参考文献 18
引言
随着二手车市场的发展,中国二手车行业的整体表现同比去年和过去十年的平均情况都有非常大的变化。一方面是受到了疫情的影响,一方面是二手车市场的竞争也越来越激烈。数据往往隐藏了很多的价值,谁先掌握了数据,谁就获得了先行权,如何去获取数据,如何去分析数据就变得更加重要,只有挖掘出更多的数据,寻找出数据与数据之间的联系,才能获得更多有利与产业发展的信息。下面给将从项目的背景和意义和项目的介绍两个方面来简单介绍该项目。
项目背景和意义
随着中国经济的发展,人民生活水平得到显著提升,大部分人会选择汽车作为家庭出行的交通工具更为方便,同时二手车也因为价格更低,性价比更高得到大家的喜欢,吸引了一大批消费者。得利于大数据的发展,大量二手车交易网站也随之产生。虽然我国的二手车交易量快速增长,但是二手车市场的发展也存在很多的问题,一方面是供远远小于求,尤其缺少优质的二手车资源 ;一方面是交易的成本 *好棒文|www.hbsrm.com +Q: &351916072& 
太高,十分混乱,黄牛横行。还有很多隐藏的问题,本项目通过对数据的爬取、数深度分析、数据可视化来优化企业的服务。
项目介绍
二手车网站数据爬取与数据分析,项目是利用基于Scrapy的爬虫技术获取数据,然后采用Pandas进行数据进行分析,最后采用Echarts和Matplotlib来完成数据的可视化部分。网站数据的爬取部分包括:对网站反爬机制的分析,和应对反爬策略的分析以及爬取数据的存储方式;数据清洗部分包括:对数据进行简单清洗;可视化部分用Echarts对数据进行展示。
关键技术介绍
对二手车网站进行爬取是任务的关键,Scrapy和Request是解决爬虫问题的关键,同时在分析网页数据的时候会用到Javascript等。Pycharm开发项目并使用Pandas分析数据,Echarts制作图表等技术,下面将详细地介绍这五种技术的功能。
(一)Scrapy技术
Scrapy[1]是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy用途广泛,可以用于数据爬取、监测数据和自动化测试等。Scrapy作为网络爬虫,在网上到处或定向抓取网站网页的HTML数据。抓取网页正常的步骤是[2],通过首页进入,然后通过首页来分析寻找其他页面的url,然后将这些页面的url规律的放入爬虫的爬取任务中,然后进入到新页面后再递归的进行上述的操作。
/
图21 Scrapy工作原理
(二)Pandas技术
Pandas[3]是BSD许可的开源库,给Python编程语言提供了高性能、易于使用的数据结构和数据分析工具。Pandas是一种基于NumPy的工具,并且纳入了大量的库和很多标准数据模型。长期以来,Python在处理数据和准备数据方面一直很出色,但在数据分析和建模方面却不那么出色。Pandas帮助填补了这一空白[4],使您能够在Python中执行整个数据分析工作流,而不必切换到R等更具领域特定性的语言。与出色的IPython工具包和其他库结合使用,在Python中进行数据分析的环境在性能,生产力和协作能力方面表现出色。
(三)Javascript技术
Javascript(简称“JS”)[5]是一种具有函数优先的轻量级,解释型或即时编译型的编程语言。Javascript被设计用来向HTML页面添加交互行为。Javascript[6]是—种脚本语言(脚本语言是—种轻量级编程语言)。Javascript由数行可执行计算机代码组成。Javascript通常被直接嵌入、HTML页面。Javascript是一种解释性语言(就是说,代码执行不进行编译),并且支持面向对象、命令式和声明式等风格。
(四)PyCharm
PyCharm[7]是一种Python IDE,帮助用户使用Python语言提高开发效率,例如可以进行调试、语法高亮、Project管理、单元测试、版本控制。该IDE还支持Django框架下的专业Web开发。同时支持Google App Engine,PyCharm支持IronPython。这些功能在先进代码分析程序的支持下,使 PyCharm 成为 Python 专业开发人员和刚起步人员使用的有力工具。
(五)Echarts
Echarts [89]是由百度团队开发的一个纯 Javascript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。创新的拖拽重计算[10]、数据视图、值域漫游等特性大大提高了用户体验,赋予了用户对数据进行挖掘、整合的能力。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jxgc/qcgc/259.html

好棒文