决策树的招聘信息挖掘与分析(附件)
摘 要在互联网技术不断进步的时代大背景,数据的价值也日益得到彰显,从大量数据中获取有效信息变得尤为重要。数据挖掘技术便随之得到了发展,越来越多的人通过数据挖掘对数据间隐藏的有效信息进行挖掘。功能强大的python程序语言,已经在数据挖掘领域得到广泛的应用。python中包含的多种数据处理扩展包,这些扩展包数据挖掘工作提供便利的同时,其强大的科学计算能力也能使得数据挖掘过程更加高效。本设计通过使用scrapy框架爬虫来对智联招聘网中的的信息进行采集,分析采集到的智联招聘信息数据,最终用决策树算法建立能够预测薪资待遇的分类模型。本文设计的开发平台为windows10,使用Pycharm作为开发工具,开发语言采用Python,使用mongodb来储存采集到的数据。通过Echarts实现数据可视化。通过使用决策树算法建立分类模型完成本次研究。本文的决策树模型,可以使求职者在寻求工作时能够预测工资待遇,辅助求职者对招聘信息做出高效评估,查看用人单位提供的工资待遇是否符合预期,求职者可以在众多招聘信息中高效的找到适合自己的工作。此模型还可以用于优化用人单位的招聘信息,该模型能对招聘信息中的薪酬进行分类,获取现下各种职位的薪酬分布情况,供用人单位参考。从而对招聘信息做进一步调整,不仅提高了招聘的效率,而且提高了用人单位在行业中的竞争力。
目 录
第1章 绪论 1
1.1研究背景与意义 1
1.1.1研究背景 1
1.1.2研究意义 1
1.2国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 2
1.3研究的内容 3
1.4研究的思路与方法 3
1.4.1研究思路 3
1.4.2研究方法 3
1.5全文组织结构 4
第2章 Web数据挖掘 4
2.1 Web数据挖掘的定义 4
2.2 Web数据挖掘的分类 5
2.3 Web数据挖掘的步骤 5
2.4 Web数据挖掘的方法 6
第3章 Python网络爬虫技术 7
*好棒文|www.hbsrm.com +Q: @351916072@
3.1 Python数据挖掘技术简介 7
3.2 scrapy 爬虫框架 7
3.2.1 网络爬虫 7
3.2.2 scrapy 框架 7
3.3常用的Python库 8
3.3.1 pymongo 库 8
3.3.2 NumPy和pandas库介绍 9
3.4网站反爬虫及应对措施 9
3.5数据预处理方法 12
第4章 决策树算法 14
4.1决策树的定义 14
4.2 决策树的生成 14
4.3 主要决策树算法 15
第5章 数据可视化简介 17
5.1 数据可视化概述 17
5.2 ECharts简介 17
第6章 基于决策树的招聘信息挖掘设计与实现 18
6.1招聘信息数据挖掘目标确定 18
6.2 招聘信息数据采集 18
6.2.1数据采集原则及筛选条件 18
6.2.2 Scrapy框架构建 18
6.2.3采集招聘信息 19
6.3招聘信息数据预处理 24
6.4招聘信息数据建模 28
6.5招聘信息数据可视化 29
第7章 总结与展望 33
7.1总结 33
7.2 展望 33
参 考 文 献 34
致 谢 36
第1章 绪论
1.1研究背景与意义
1.1.1研究背景
网络的高速发展意味着在线交流成为一种趋势,同时网络招聘已经成为获取人才的一个主要方式。通过网络招聘的求职者逐年增长,主要原因是网络招聘的低成本、招聘信息覆盖面广、招聘信息针对性强等。同时,网络招聘不受时间和空间的限制,方便双方能进行及时有效的沟通,大大节省了时间成本,缩短了求职周期。使得网络招聘成为了一种潮流。
随着互联网中数据规模的持续更新与发展,使得各行各业的数据海量累积,提取海量数据中的有效信息变的尤为重要。大数据时代的来临使得数据飞速增长,这使得数据更加纷杂、庞大,若通过传统方式对数据进行处理来得到有用的信息则是十分困难的。由此,数据挖掘使用就更加普遍,数据挖掘技术,就是把以往的分析数据的方式与算法结合起来,从海量没有经过处理的数据集中,得到数据间隐含的有效信息。如今,数据挖掘技术,在交通、股票、科学与金融等多种领域都得到了广泛应用。大数据时代的来临意味着数据挖掘技术也将更加得到重视。
python语言是一种面向对象的高级编程语言。其良好的跨平台特性和丰富的、开源的第三方库以及可以便捷的获取源代码,促使pythons深受数据挖掘领域所喜爱。
1.1.2研究意义
1.理论意义
在数据挖掘分类算法等相关文献研究的基础上,借鉴数据挖掘分类算法相关方面的已有研究,通过Python爬虫技术对招聘信息的数据挖掘分析,构建招聘薪资数据分类模型,从而丰富了数据挖掘相关研究的理论成果,完善了数据分类模型体系。
2.实践意义
本研究在对网上招聘信息数据挖掘分析的基础上,通过建立薪资水平分类预测模型,一方面为数据挖掘分类算法在应用方面提供可借鉴的实践价值,另一方面为招聘薪资信息方面的筛选评估应用提供有效的实践价值。
1.2国内外研究现状
1.2.1国外研究现状
从以往的研究来看,国外较早开始对数据挖掘的技术的相关进行研究。上世纪八十年代末,作为数据挖掘概念源头的数据库中发现知识概念(KDD)被提出[1]。自1993年起,国际计算机学会(ACM)每年召开数据挖掘研究会议,与全球各领域的研究者共同讨论数据的处理和改进数据分析算法等问题[2]。随后,国外各大高校和相关机构积极开展对数据挖掘相关领域和数据挖掘工具的研究。国外对决策树分类算法的相关研究较多。Bailey等人基于决策树算法开发了一个用于提供污水管道堵塞排查的决策树模型,利用该模型以实现减少污水管网的堵塞,降低成本改善环境的目的[3]。Li等人则提出了一种改进的决策树故障诊断方法,与随机森林和广义回归相比,该方法具有较好的故障诊断性能[4]。ZeHeng将数据挖掘中的决策树算法应用于市政工程成本上,以帮助相关从业人员能够快速的对项目成本进行预测并提高决策分析的效率[5]。Paula等人基于决策树算法利用27个案例综合不同的生物物理、社会文化和评估方法构建生态系统评价模型,为生态服务相关领域的研究者和实践者提供了指导[6]。Abdallah等人则立足于风力发电机组故障诊断方面,运用决策树算法构建了服务于风力发电机组故障诊断的决策树模型,以用于检测故障、损坏和异常操作[7]。
目 录
第1章 绪论 1
1.1研究背景与意义 1
1.1.1研究背景 1
1.1.2研究意义 1
1.2国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 2
1.3研究的内容 3
1.4研究的思路与方法 3
1.4.1研究思路 3
1.4.2研究方法 3
1.5全文组织结构 4
第2章 Web数据挖掘 4
2.1 Web数据挖掘的定义 4
2.2 Web数据挖掘的分类 5
2.3 Web数据挖掘的步骤 5
2.4 Web数据挖掘的方法 6
第3章 Python网络爬虫技术 7
*好棒文|www.hbsrm.com +Q: @351916072@
3.1 Python数据挖掘技术简介 7
3.2 scrapy 爬虫框架 7
3.2.1 网络爬虫 7
3.2.2 scrapy 框架 7
3.3常用的Python库 8
3.3.1 pymongo 库 8
3.3.2 NumPy和pandas库介绍 9
3.4网站反爬虫及应对措施 9
3.5数据预处理方法 12
第4章 决策树算法 14
4.1决策树的定义 14
4.2 决策树的生成 14
4.3 主要决策树算法 15
第5章 数据可视化简介 17
5.1 数据可视化概述 17
5.2 ECharts简介 17
第6章 基于决策树的招聘信息挖掘设计与实现 18
6.1招聘信息数据挖掘目标确定 18
6.2 招聘信息数据采集 18
6.2.1数据采集原则及筛选条件 18
6.2.2 Scrapy框架构建 18
6.2.3采集招聘信息 19
6.3招聘信息数据预处理 24
6.4招聘信息数据建模 28
6.5招聘信息数据可视化 29
第7章 总结与展望 33
7.1总结 33
7.2 展望 33
参 考 文 献 34
致 谢 36
第1章 绪论
1.1研究背景与意义
1.1.1研究背景
网络的高速发展意味着在线交流成为一种趋势,同时网络招聘已经成为获取人才的一个主要方式。通过网络招聘的求职者逐年增长,主要原因是网络招聘的低成本、招聘信息覆盖面广、招聘信息针对性强等。同时,网络招聘不受时间和空间的限制,方便双方能进行及时有效的沟通,大大节省了时间成本,缩短了求职周期。使得网络招聘成为了一种潮流。
随着互联网中数据规模的持续更新与发展,使得各行各业的数据海量累积,提取海量数据中的有效信息变的尤为重要。大数据时代的来临使得数据飞速增长,这使得数据更加纷杂、庞大,若通过传统方式对数据进行处理来得到有用的信息则是十分困难的。由此,数据挖掘使用就更加普遍,数据挖掘技术,就是把以往的分析数据的方式与算法结合起来,从海量没有经过处理的数据集中,得到数据间隐含的有效信息。如今,数据挖掘技术,在交通、股票、科学与金融等多种领域都得到了广泛应用。大数据时代的来临意味着数据挖掘技术也将更加得到重视。
python语言是一种面向对象的高级编程语言。其良好的跨平台特性和丰富的、开源的第三方库以及可以便捷的获取源代码,促使pythons深受数据挖掘领域所喜爱。
1.1.2研究意义
1.理论意义
在数据挖掘分类算法等相关文献研究的基础上,借鉴数据挖掘分类算法相关方面的已有研究,通过Python爬虫技术对招聘信息的数据挖掘分析,构建招聘薪资数据分类模型,从而丰富了数据挖掘相关研究的理论成果,完善了数据分类模型体系。
2.实践意义
本研究在对网上招聘信息数据挖掘分析的基础上,通过建立薪资水平分类预测模型,一方面为数据挖掘分类算法在应用方面提供可借鉴的实践价值,另一方面为招聘薪资信息方面的筛选评估应用提供有效的实践价值。
1.2国内外研究现状
1.2.1国外研究现状
从以往的研究来看,国外较早开始对数据挖掘的技术的相关进行研究。上世纪八十年代末,作为数据挖掘概念源头的数据库中发现知识概念(KDD)被提出[1]。自1993年起,国际计算机学会(ACM)每年召开数据挖掘研究会议,与全球各领域的研究者共同讨论数据的处理和改进数据分析算法等问题[2]。随后,国外各大高校和相关机构积极开展对数据挖掘相关领域和数据挖掘工具的研究。国外对决策树分类算法的相关研究较多。Bailey等人基于决策树算法开发了一个用于提供污水管道堵塞排查的决策树模型,利用该模型以实现减少污水管网的堵塞,降低成本改善环境的目的[3]。Li等人则提出了一种改进的决策树故障诊断方法,与随机森林和广义回归相比,该方法具有较好的故障诊断性能[4]。ZeHeng将数据挖掘中的决策树算法应用于市政工程成本上,以帮助相关从业人员能够快速的对项目成本进行预测并提高决策分析的效率[5]。Paula等人基于决策树算法利用27个案例综合不同的生物物理、社会文化和评估方法构建生态系统评价模型,为生态服务相关领域的研究者和实践者提供了指导[6]。Abdallah等人则立足于风力发电机组故障诊断方面,运用决策树算法构建了服务于风力发电机组故障诊断的决策树模型,以用于检测故障、损坏和异常操作[7]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/272.html