python分布式爬虫的全国招聘数据分析平台(源码)【字数:11722】

摘 要为帮助大学生,社会从业人员了解当前市场的就业环境和社会对人才的需求,也为帮助大学生更好的就业择业,使得大学生在学校中能够及时了解社会的职位情况,以便及时的学习相应的知识为就业提供支撑,但是目前互联网没有一款产品能够实时有效的反映出社会中的职位变化以供参考。因此,基于python分布式爬虫的全国招聘数据分析平台应运而生。该平台采用B/S模式,基于python开发。借助Python 完成招聘数据的爬取和清洗;依靠Elasticsearch数据搜索分析服务,完成对百万级招聘数据的聚合统计等操作;通过python的Flask框架完成webAPI,使用阿里云服务DataV完成网页的编写及简单的用户交互体验;使用阿里云服务器ECS实例完成云上环境的部署;综合运用各种技术来增强用户体验效果。平台采用python实时爬虫自动解析网页数据入库,自动完成实时数据分析,实时渲染数据可视化大屏,达到一目了然,数据实时有效,视觉冲击力震撼的数据平台效果[123]。借助浏览器,教师可以了解社会招聘职位需求变化,学生了解社会严峻的就业形势,针对性的补充自己的理论知识和实践能力,对自己的学业一定的知指导作用。系统可以较好,全面的展示社会职位的分布和变化,数据可视化大屏满足基本的数据分析图表。
目 录
第1章 前言 4
1.1课题研究背景 4
1.2国内外研究现状 4
1.3平台开发模式与运行环境 4
1.3.1 B/S模式 4
1.3.2 开发与运行环境 5
1.4课题研究内容 5
1.5课题研究目的与意义 5
1.5.1 研究目的 5
1.5.2 研究意义 5
1.6全文组织结构 6
第2章 招聘数据分析平台的系统分析 7
2.1可行性分析 7
2.2系统需求调研 7
2.3系统架构分析 7
2.3.1 系统瓶颈分析 7
2.3.1 系统架构图 8
2.4系统需求分析 8
2.4.1功能需求分析 8
2.4.2非功能性需求分析 10
第3章 招聘数据分析平台的设计 11
3 *好棒文|www.hbsrm.com +Q: ^351916072* 
.1系统架构层次设计 11
3.2数据库设计 11
3.2.1概念设计 11
3.4 代码框架设计 14
3.4.1 爬虫代码设计 14
3.4.2 数据分析及可视化API设计 15
第4章 招聘数据分析平台的实现 17
4.1主要功能模块的实现 17
4.2 数据分析图表解读 20
4.3数据分析不足 20
4.3小结 20
第5章 招聘数据分析平台的测试 21
第6章 总结与展望 25
6.1 总结 25
6.2 展望 25
附 录 26
参 考 文 献 1
致 谢 1
第1章 前言
1.1课题研究背景
网络招聘现在已经是各企业进行人才招聘的主要方式,我国自互联网发展之日起,网络招聘就在不断的改善,不仅帮助企业找到发掘出心仪人才,更是服务千千万万就业者,极大提高了社会生产力。虽然我们的经济社会发展进入了新时代,但是由于我国人口众多,人口基数大,所有目前我国的大学生就业形势依旧严峻。
为了帮助大学生更好就业择业,有必要通过技术手段进行实时的将网络上的招聘数据进行分析,帮助大学生更好认识自己,认清社会现状,以便于更改,更全面,更有针对性的提高发展自己,以便选择适合自己的职业和岗位,更好的服务社会。
1.2国内外研究现状
目前国内外的招聘数据分析都是去年或者较早时期的数据分析,没有一个最近时期的数据分析报告,更没有一个总体的数据招聘网站的数据分析平台,那么此项目就是解决此痛点而生。
在网络招聘的形式上,吴敏娜和杨爽对当前的网络招聘形式进行了分析,解析出招聘中存在的优缺点,对针对问题提出了自己的建议。数据抓取方面,学者刘熠通过Python的爬虫框架Scarpy,利用Python Numpy库和Pandas库完成了对WEB页面的数据抓取,数据信息的预处理,数据挖掘建模和模型评估等工作,完成了对招聘者的薪资预测等功能。学者安子健完成Python Scarpy爬虫框架的实现,通过UserAgent和Cookie伪装技术实现了站点的限制,通过URL去重和多线程并发极大的提高了爬虫的效率,同时使用以MongoDB为代表的No Sql数据库进行存储,为我们进行网络爬虫的编写提供了可靠完整的实例。
在IT行业和大数据招聘的垂直领域招聘,燕山大学的团队章胤等人完成使用数据分析统计软件SAS完成了基于Kmeans算法的网络招聘数据聚类分析,得出了大数据和IT行业等计算机行业对学历要求较高,并在社会需求中有增加的趋势。
在数据识别领域,针对公司在多个招聘网站发布相同职位招聘的问题,山东大学团队研究采用了实体同源技术并且在国内处于领先地位。
与此同时,国外不少学者团队也进行了研究,著名招聘网站Lindin在2018年12发布了《LinkedIn 2018 Jobs Report》的职位分析报告,同时国外大量学者和团队在全球最大的开源代码托管机构Github开源Lindin招聘网站的数据抓取源码,以供我们进行研究和学习。
综上分析可知,国内外的相关研究已经比较深入,在很多方面已经形成了较为成熟的体系,可为平台的开发提供重要的参考。相对于以上的算法研究,本课题更加关注系统的实用性,希望能够结合目前的主要需求,在最优性和实用性之间进行一定的平衡,简化相关的算法,设计出操作便捷,实用高效的系统。
1.3平台开发模式与运行环境
1.3.1 B/S模式
B/S模式即浏览器和服务器模式,可以满足多用户、多地点查看平台要求。对于本平台,教师和学生通过浏览器就可以完成各项操作,全部服务完全部署在 阿里云服务器上。
1.3.2 开发与运行环境
操作系统:Centos7。
服务器:阿里云服务器。
Java开发工具包:python3。
开发工具:Pycharm教育版。
数据库:ElasticSearch及其图形化管理工具ElasticsearchHead。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/410.html

好棒文