python语言数据挖掘的冷链物流(源码)

根据冷链物流信息平台对数据的需求,本项目采用Python语言对国内主要的冷链物流网站进行数据的分析和挖掘,利用了高效简便的Scrapy框架对物流信息进行采集,以MyEclipse为开发平台,MySql为数据库来搭建项目的展示模块,用来方便用户对纷杂的物流信息的获取,并且保证了这些的物流信息具有海量、可靠、实时的特点。本文详细介绍了Python的数据挖掘模块,使得在这个大数据时代,面对繁杂数据时,能够采取行之有效的获取办法。以冷链马甲这个网站为例,对其页面进行请求、解析,对所需的数据采取定位,对采集后的信息进行存储,逐步讲解Scrapy框架的使用方法。关键词 数据挖掘,冷链物流,信息平台,Scrapy
目 录
1 引言 1
1.1 研究背景 1
1.2 实现目标 1
2 可行性分析 2
2.1 技术可行性 2
2.2 社会可行性 2
3 需求分析 3
3.1 功能需求 3
3.2 平台展示部分 4
3.3 主要技术和工具 4
4 总体设计 7
4.1 Scrapy数据挖掘架构 7
4.2 信息展示平台架构 9
4.3 数据库设计 10
4.4 界面展示部分 15
5 详细设计 17
5.1 数据挖掘部分 17
5.2 信息展示部分 29
结论 36
致谢 37
参考文献 38
1 引言
1.1 研究背景
随着科学技术的进步、制冷技术的快速发展,人们对冷链物流(Cold Chain Logistics)这一名词耳熟能详,冷链物流的基础也随之建立起来。冷链物流是以冷冻技术为基础、以制冷工艺为手段的低温物流过程。冷链物流泛指冷藏冷冻类食品在生产、贮藏运输、销售到消费前的各个环节中始终处于规定的低温环境下,以保证物品质量,减少物品损耗的一项系统工程。由于冷链物流的要求比较高,相对应的管理和投入的资金方面也要比普通的常温物流要大。为促进中国的冷链物流业的快速发展,国家也在制定和实施科学、有效的 *好棒文|www.hbsrm.com +Q: ^351916072^ 
宏观政策[1]。
“互联网+”的出现刺激了新鲜食品行业的再次发展,同时也为冷链物流的快速发展提供了巨大的机遇。“十一五”计划中就明确提出了要积极发展支持鲜活农产品冷链物流,“十二五”期间我国的冷链和冷装备制造业飞速发展,把冷链物流又推上了一个档次,随着我国经济的快速发展,居民收入增加,对健康的看重,更是拓宽了冷链物流行业的发展空间[2],对目前国内的几大冷链物流的网站来说,当前的状况和国家的政策,都使其存在着巨大的发展前景。
1.2 实现目标
1.2.1 功能目标
基于Python[3]的冷链物流信息平台利用Scrapy框架[4]对大型冷链物流网站的简述信息数据进行挖掘,以及对二级页面的详细信息数据挖掘,将收集到的信息作为本物流平台的展示数据。为使采集过程更为清晰,方便用户对采集信息的查看,本物流平台在前端页面上可供用户对采集到的信息进行查看,使数据采集到数据库的过程变得更加直观明了。
Python的Scrapy框架对物流数据的采集
由初始url进入,请求被采集的信息页面。
解析请求的页面,利用xpath定位需要采集的信息,对其进行抓取,返回简述信息页面中的数据列表。
引用上一层返回的简述信息列表,对其中详细页面的url进行解析,抓取详细信息,最后将信息分类,保存为简述信息和详细信息两张表。
物流平台的信息显示
进入物流信息展示平台后可以查看之前采集到的大量物流数据
1.2.2 性能目标
能够较快采集到信息。
能将数据存入MySql数据库[5],数据库字段与采集信息的字段保持一致。
使用用户代理,模拟用户登录浏览器,保证能够获取到数据而不被网站拦截。
采集的时候,避免信息的大量重复冗余。
2 可行性分析
2.1 技术可行性
技术可行性是指计算机硬件、系统软件的配置、网络系统性能和数据库系统等,能否满足新系统目标的要求。本平台的数据挖掘语言是Python,使用的模块是Scrapy开发平台是MyEclipse,语言为Java[6],数据库为MySql,使用该关系型数据库是因为它能满足本平台对数据存储的要求,且它又是免费开源的。数据挖掘部分使用的Scrapy框架,它采用了可读性更强的xpath[7]进行信息定位从而取代了正则,拥有强大的log系统,通过pipelines(管道)的方式存入数据库。经过一段时间的学习,已能够灵活运用这些模块。所以,在开发过程中,目前所拥有的技术力量完全能够满足要求,能够在给定的时间内实现所需功能。因此,从技术可行性的角度考虑,该平台是完全可行的。
2.2 社会可行性
社会可行性是指对社会包括对政治体制、方针政策、经济结构、法律道德、宗教民族及社会稳定性等的影响。基于Python的数据挖掘冷链物流信息平台对大型冷链物流网站进行页面请求,页面解析,采集数据,数据存储,信息展示。响应国家号召及政策,关注冷链物流信息,方便用户浏览冷链物流的数据信息。因此,从社会可行性的角度考虑的话,该平台是完全可行的。
综上所述,此平台开发目标已明确,在技术、社会影响等方面都是可行,并且还具有投入少,操作简易方便等优点。因此平台的开发是完全可行的。
3 需求分析
3.1 功能需求
本平台包括使用scrapy框架,对items、spiders、pipelines、settings的定义,使其能够完成对数据的挖掘,如图3.1所示。


版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1194.html

好棒文