出租车运营数据分析与展示
出租车运营数据分析与展示[20191214194237]
摘 要
出租车服务是城市交通运输的重要一环,特别是在经济较为发达的常州市。本文试图通过专业统计软件SPSS对2009年11月份的常州市出租车运营数据进行分析,得出一些合理的运营建议,从而使出租车运营既能满足社会需求,又能提高运营效率。
本文首先介绍了SPSS统计分析软件以及一系列常用统计术语,然后介绍了数据预处理以及分析方案设计,接着通过分析方案对出租车运营数据进行分析,最后介绍了使用SPSS自带的SaxBasic脚本语言实现展示界面的过程。
通过数据分析,本论文得出的结论是:出租车在常州各个地区的经营效果差别不大;常州出租车的最佳出车时间为15~21小时,此时营业额最大,空载率最低;周六和周日出车效果最好,周二左右的经营效果最差。
摘要 Ⅴ
查看完整论文请+Q: 351916072
关键字:】SPSS;出租车;营业额;空载率
目录
ABSTRACT Ⅵ
目 录 Ⅶ
第一章 绪论 1
一、课题背景 1
二、本文的主要工作 1
第二章 相关技术综述 2
一、常用统计分析方法介绍 2
二、SPSS统计分析平台 4
(一)SPSS介绍 4
(二)SPSS19.0的特点 5
三、营业额数据的预处理 6
1.运营部门提供的数据表 6
2.数据清洗 7
3.增加变量..8 4.修改变量属性9四、分析方案设计.9
第三章 基于SPSS的评教方案分析 11
一、频数分析 11
二、均值比较 13
三、单因素方差分析 15
四、T检验 18
五、相关分析 18
六、回归分析 20
七、聚类分析 23
九、分析结论 29
十、可视化界面展示 29
第四章 总结 47
致谢 48
参考文献 49
附录 50
外文资料 50
SAS Statistical Analysis Software And Logistic Regression 50
中文翻译 55
第一章绪论
一、课题背景
对于出租车的行业分析由来已久,但是以前这方面的研究一般都停留在对出租车本身设计和对出租车这一行业大体发展方向上,目前缺少对一个指定区域进行的实例分析,本论文所研究的就是在控制出车空载情况的前提下,找出营业额的特征,以及给出租车运营管理部门提供合理的运营调度建议。
目前,出租车在常州市是一种较为常见的交通工具,基本每3分钟在一个路口就能见到一辆路过的出租车,但是出租车在寻找客户的漫游阶段通常会出现很长时间的空载时间,这既不利于资源的有效分配,又不合乎出租车公司效益最大化的原则。通常影响出租车营运额与空载率的因素有三个,如地区差别因素,周次差别因素,营业时间长短因素。常州分为常州本地,溧阳,金坛三个地区,由于经济发展程度的不同,居民的消费水平也不同,这限制了出租车在当地业务的发展。周次因素则是通过人们上班时间和节假日的周期性变化来深刻影响出租车的业务,比如周末时人们的流动量加大,所以出租车的载客次数就会加大。营业时间对营业额存在着必然联系,营业时间越大,营业额也就会越大。
对这些差异,笔者设计了一组方案,采用SPSS19.0中的统计学原理和方法,对这些影响营业额和空载率的客观因素进行了量化分析。
二、本文的主要工作
本文的工作基于上述背景,目的是使用专业统计软件SPSS19.0对收集到的2009年9月份的数据进行分析,从而找出各因素和营业额与空载率的关系,从而得出影响空载率的关键因素,一遍提高出租车的运营效率。
主要工作包括以下几个部分:
① 对统计分析方法和参数的介绍
② 出租车运营数据的预处理
③ 分析方案的实现及结果分析
④ 编写制作展示界面
第二章相关技术综述
一、常用统计分析方法介绍
1.频数分布:
频数分布表是描述性统计中最常用的方法之一,具体过程是在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布。根据对一个变量的所有取值的频度进行的统计,我们可以了解该变量的取值分布情况。
2.均值比较:
根据一个变量的不同分组,计算出每一个分组的算数平均值,我们可以了解不同分组之间有无差异。均值是表示一组数据集中趋势的量数。
3.交叉表:
按行变量和列变量的不同分组进行单元格中统计量的频度统计,并且可以计算相应的百分数指标。用户据此可了解行列变量之间的比例关系进而确定其差异情况。
4.两独立样本T检验:
两独立样本T检验就是根据样本数据对它们来自的两个独立总体的均值是否有显著性差异进行推断。该检验的前提要求如下:
(1)所选两个样本应是互相独立的,即从一个总体中抽取一批样本对从另一总体中抽取一批样本不会有任何的影响,所选的两组样本的个案数目可以不同,个案顺序也可以随意调整。
(2)样本来自的两个总体必须服从正态分布。
一般步骤如下:
(1)利用F检验判断两个总体的方差是否相等,即方差是否齐次。
(2)根据前一步的判断结果决定t统计量和自由度得计算公式,进而对T检验的结论做出判断。
5.单因素方差分析:
单因素方差分析就是测试某一个控制变量在不同水平是否给观察变量造成了显著的差异,我们据此可了解观察变量在同一个控制变量中的若干个不同水平下,其各个总体在分布上是否存在显著差异。
在实际研究中,经常需要比较两组以上样本均数的差别,这时不能使用t检验方法作两两间的比较(如有人对四组均数的比较,作6次两两间的t检验),这势必增加两类错误的可能性(如原先a定为0.05,这样作多次的t检验将使最终推断时的a>0.05)。所以对于两组以上的均数比较,必须使用方差分析的方法,当然方差分析方法亦适用于两组均数的比较。
6.相关分析:
任何事物的存在都不是完全孤立的,而是相互联系的。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系 的一种统计方法 。
衡量两个变量间关系的量叫相关系数,记作rij。两个变量,其中一个变量的变化可能引起另一个变量的变化,则另一个变化在总的变化中所占的百分比称为相关系数。一般地,|r|>0.95表示两个变量存在显著性相关;|r|≥0.8 表示两个变量高度相关;0.5≤|r|<0.8 表示两者中度相关; |r|<0.3 关系极弱,认为不相关。
7.回归分析:
线性回归分析是侧重考察变量之间的数量变化规律,并通过一定的数学表达式,即回归方程,来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学的数学依据。
一般步骤:
(1)确定回归方程中的自变量和因变量。
(2)利用搜集到的样本数据确定自变量和因变量之间的数学关系式,建立回归方程。
(3)对回归方程进行各种统计检验,检查方程的正确性。
(4)利用回归方程进行因变量预测。
8.聚类分析:
聚类分析直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。区别与判别分析则先根据已知类别的事物的性质,对未知类别的新事物进行判断以将之归入已知的类别中。我们可以据此方法实现样本数据的自动分类。
聚类分析主要有两种方法:层次聚类分析和快速聚类分析。由于样本数量过大,快速聚类方法(又称K检验)将是本文主要采用的聚类分析方法。
二、SPSS统计分析平台
(一)SPSS介绍
SPSS(Statistical Package for the Social Sciences)即社会科学统计软件包,是当今世界上公认的最流行、最强大的三大统计分析软件(SPSS、SAS和BMDP)之一。SPSS从10.0版本开始就基于Microsoft Windows 95操作系统上运行,具有Windows软件的共同特征。由于SPSS具有统计、绘图功能强、使用简单方便等优点,同时SPSS被大量应用于理财、通讯、市场研究、科学研究、医疗等领域与行业,深受广大科研工作者的喜爱,目前已经成为世界上应用最广泛的统计软件。
SPSS是全球最早使用图形菜单驱动界面的统计软件,它最主要的特点就是操作界面友好,输出的结果简明漂亮。它几乎能将所有已知的功能都用统一、规范的界面展现出来。用户可以使用Windows的窗口方式选择所需管理和分析数据方法的功能,来让对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的工作服务。SPSS采用类似于EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了目前常用的、较为成熟的很多统计过程,完全可以满足所有的工作需要。SPSS的输出结果十分美观,存储时则是专用的.sav格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。这项功能极大的方便了所有用户。
在SPSS for Windos8.x以后的版本中,都可以通过内部提供的SaxBasic脚本语言结合Syntax命令程序进行二次开发。SaxBasic语言实际上类似于WordBasic,Access Basic以及Excel, AutoCAD,MapInfo ,Geo Media等应用程序中的Basic语言的一种客户语言-VBA(Visual Basic for Application)。利用它,结合Visual Basic,Visual C++和Delphi等语言,可以编写出界面友好,集数据准备,统计分析和图表生成为一体的实用程序,使重复性的工作得以快速,高效地完成。不仅如此,借助OLE自动生成机制,还可以实现与同样支持该技术的其他专业应用之间的通信,例如可以用Word来输出统计结果等。
(二)SPSS19.0的特点
作为目前较新的版本,操作界面极为友好,输出结果美观漂亮,他使用窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。是非专业统计人员的首选统计软件。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、Minitab的总体印象分的统计中,其诸项功能均获得最高分。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。使用界面如图2.0:
图2.0 SPSS19.0运行界面
三、营业额数据的预处理
1.运营部门提供的数据表
得到的原始Excel表格格式如图2.1、图2.2:
图2.1原始运营数据表1
图2.2原始运营数据表2
分析过程中可以排除的没有影响的因素分别为车辆牌照号、公司名称、日期。
由于考虑到出租车行驶速度可以看作近似匀速,所以载客里程、载客时间相互之间营业额成正比,空载时间与空驶里程成正比,而里程空载率为空驶里程与出车里程之比,所以,通过里程空载率与营业额的结合可以推断出其余几个因素,所以其余因素可以舍弃。由于里程利用率是百分百减去里程空载率的值,所以,去掉里程利用率。
导入SPSS后的各变量格式修改为图2.3:
图2.3导入后的属性表
2.数据清洗
由于数据在获取时,可能产生一些差异,本文首先对数据进行了错误检验,删除了如下错误数据,比如营运额过大,不符合实际,比如见图2.4:
摘 要
出租车服务是城市交通运输的重要一环,特别是在经济较为发达的常州市。本文试图通过专业统计软件SPSS对2009年11月份的常州市出租车运营数据进行分析,得出一些合理的运营建议,从而使出租车运营既能满足社会需求,又能提高运营效率。
本文首先介绍了SPSS统计分析软件以及一系列常用统计术语,然后介绍了数据预处理以及分析方案设计,接着通过分析方案对出租车运营数据进行分析,最后介绍了使用SPSS自带的SaxBasic脚本语言实现展示界面的过程。
通过数据分析,本论文得出的结论是:出租车在常州各个地区的经营效果差别不大;常州出租车的最佳出车时间为15~21小时,此时营业额最大,空载率最低;周六和周日出车效果最好,周二左右的经营效果最差。
摘要 Ⅴ
查看完整论文请+Q: 351916072
关键字:】SPSS;出租车;营业额;空载率
目录
ABSTRACT Ⅵ
目 录 Ⅶ
第一章 绪论 1
一、课题背景 1
二、本文的主要工作 1
第二章 相关技术综述 2
一、常用统计分析方法介绍 2
二、SPSS统计分析平台 4
(一)SPSS介绍 4
(二)SPSS19.0的特点 5
三、营业额数据的预处理 6
1.运营部门提供的数据表 6
2.数据清洗 7
3.增加变量..8 4.修改变量属性9四、分析方案设计.9
第三章 基于SPSS的评教方案分析 11
一、频数分析 11
二、均值比较 13
三、单因素方差分析 15
四、T检验 18
五、相关分析 18
六、回归分析 20
七、聚类分析 23
九、分析结论 29
十、可视化界面展示 29
第四章 总结 47
致谢 48
参考文献 49
附录 50
外文资料 50
SAS Statistical Analysis Software And Logistic Regression 50
中文翻译 55
第一章绪论
一、课题背景
对于出租车的行业分析由来已久,但是以前这方面的研究一般都停留在对出租车本身设计和对出租车这一行业大体发展方向上,目前缺少对一个指定区域进行的实例分析,本论文所研究的就是在控制出车空载情况的前提下,找出营业额的特征,以及给出租车运营管理部门提供合理的运营调度建议。
目前,出租车在常州市是一种较为常见的交通工具,基本每3分钟在一个路口就能见到一辆路过的出租车,但是出租车在寻找客户的漫游阶段通常会出现很长时间的空载时间,这既不利于资源的有效分配,又不合乎出租车公司效益最大化的原则。通常影响出租车营运额与空载率的因素有三个,如地区差别因素,周次差别因素,营业时间长短因素。常州分为常州本地,溧阳,金坛三个地区,由于经济发展程度的不同,居民的消费水平也不同,这限制了出租车在当地业务的发展。周次因素则是通过人们上班时间和节假日的周期性变化来深刻影响出租车的业务,比如周末时人们的流动量加大,所以出租车的载客次数就会加大。营业时间对营业额存在着必然联系,营业时间越大,营业额也就会越大。
对这些差异,笔者设计了一组方案,采用SPSS19.0中的统计学原理和方法,对这些影响营业额和空载率的客观因素进行了量化分析。
二、本文的主要工作
本文的工作基于上述背景,目的是使用专业统计软件SPSS19.0对收集到的2009年9月份的数据进行分析,从而找出各因素和营业额与空载率的关系,从而得出影响空载率的关键因素,一遍提高出租车的运营效率。
主要工作包括以下几个部分:
① 对统计分析方法和参数的介绍
② 出租车运营数据的预处理
③ 分析方案的实现及结果分析
④ 编写制作展示界面
第二章相关技术综述
一、常用统计分析方法介绍
1.频数分布:
频数分布表是描述性统计中最常用的方法之一,具体过程是在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布。根据对一个变量的所有取值的频度进行的统计,我们可以了解该变量的取值分布情况。
2.均值比较:
根据一个变量的不同分组,计算出每一个分组的算数平均值,我们可以了解不同分组之间有无差异。均值是表示一组数据集中趋势的量数。
3.交叉表:
按行变量和列变量的不同分组进行单元格中统计量的频度统计,并且可以计算相应的百分数指标。用户据此可了解行列变量之间的比例关系进而确定其差异情况。
4.两独立样本T检验:
两独立样本T检验就是根据样本数据对它们来自的两个独立总体的均值是否有显著性差异进行推断。该检验的前提要求如下:
(1)所选两个样本应是互相独立的,即从一个总体中抽取一批样本对从另一总体中抽取一批样本不会有任何的影响,所选的两组样本的个案数目可以不同,个案顺序也可以随意调整。
(2)样本来自的两个总体必须服从正态分布。
一般步骤如下:
(1)利用F检验判断两个总体的方差是否相等,即方差是否齐次。
(2)根据前一步的判断结果决定t统计量和自由度得计算公式,进而对T检验的结论做出判断。
5.单因素方差分析:
单因素方差分析就是测试某一个控制变量在不同水平是否给观察变量造成了显著的差异,我们据此可了解观察变量在同一个控制变量中的若干个不同水平下,其各个总体在分布上是否存在显著差异。
在实际研究中,经常需要比较两组以上样本均数的差别,这时不能使用t检验方法作两两间的比较(如有人对四组均数的比较,作6次两两间的t检验),这势必增加两类错误的可能性(如原先a定为0.05,这样作多次的t检验将使最终推断时的a>0.05)。所以对于两组以上的均数比较,必须使用方差分析的方法,当然方差分析方法亦适用于两组均数的比较。
6.相关分析:
任何事物的存在都不是完全孤立的,而是相互联系的。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量
衡量两个变量间关系的量叫相关系数,记作rij。两个变量,其中一个变量的变化可能引起另一个变量的变化,则另一个变化在总的变化中所占的百分比称为相关系数。一般地,|r|>0.95表示两个变量存在显著性相关;|r|≥0.8 表示两个变量高度相关;0.5≤|r|<0.8 表示两者中度相关; |r|<0.3 关系极弱,认为不相关。
7.回归分析:
线性回归分析是侧重考察变量之间的数量变化规律,并通过一定的数学表达式,即回归方程,来描述这种关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学的数学依据。
一般步骤:
(1)确定回归方程中的自变量和因变量。
(2)利用搜集到的样本数据确定自变量和因变量之间的数学关系式,建立回归方程。
(3)对回归方程进行各种统计检验,检查方程的正确性。
(4)利用回归方程进行因变量预测。
8.聚类分析:
聚类分析直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。区别与判别分析则先根据已知类别的事物的性质,对未知类别的新事物进行判断以将之归入已知的类别中。我们可以据此方法实现样本数据的自动分类。
聚类分析主要有两种方法:层次聚类分析和快速聚类分析。由于样本数量过大,快速聚类方法(又称K检验)将是本文主要采用的聚类分析方法。
二、SPSS统计分析平台
(一)SPSS介绍
SPSS(Statistical Package for the Social Sciences)即社会科学统计软件包,是当今世界上公认的最流行、最强大的三大统计分析软件(SPSS、SAS和BMDP)之一。SPSS从10.0版本开始就基于Microsoft Windows 95操作系统上运行,具有Windows软件的共同特征。由于SPSS具有统计、绘图功能强、使用简单方便等优点,同时SPSS被大量应用于理财、通讯、市场研究、科学研究、医疗等领域与行业,深受广大科研工作者的喜爱,目前已经成为世界上应用最广泛的统计软件。
SPSS是全球最早使用图形菜单驱动界面的统计软件,它最主要的特点就是操作界面友好,输出的结果简明漂亮。它几乎能将所有已知的功能都用统一、规范的界面展现出来。用户可以使用Windows的窗口方式选择所需管理和分析数据方法的功能,来让对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的工作服务。SPSS采用类似于EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了目前常用的、较为成熟的很多统计过程,完全可以满足所有的工作需要。SPSS的输出结果十分美观,存储时则是专用的.sav格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。这项功能极大的方便了所有用户。
在SPSS for Windos8.x以后的版本中,都可以通过内部提供的SaxBasic脚本语言结合Syntax命令程序进行二次开发。SaxBasic语言实际上类似于WordBasic,Access Basic以及Excel, AutoCAD,MapInfo ,Geo Media等应用程序中的Basic语言的一种客户语言-VBA(Visual Basic for Application)。利用它,结合Visual Basic,Visual C++和Delphi等语言,可以编写出界面友好,集数据准备,统计分析和图表生成为一体的实用程序,使重复性的工作得以快速,高效地完成。不仅如此,借助OLE自动生成机制,还可以实现与同样支持该技术的其他专业应用之间的通信,例如可以用Word来输出统计结果等。
(二)SPSS19.0的特点
作为目前较新的版本,操作界面极为友好,输出结果美观漂亮,他使用窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。是非专业统计人员的首选统计软件。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、Minitab的总体印象分的统计中,其诸项功能均获得最高分。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。使用界面如图2.0:
图2.0 SPSS19.0运行界面
三、营业额数据的预处理
1.运营部门提供的数据表
得到的原始Excel表格格式如图2.1、图2.2:
图2.1原始运营数据表1
图2.2原始运营数据表2
分析过程中可以排除的没有影响的因素分别为车辆牌照号、公司名称、日期。
由于考虑到出租车行驶速度可以看作近似匀速,所以载客里程、载客时间相互之间营业额成正比,空载时间与空驶里程成正比,而里程空载率为空驶里程与出车里程之比,所以,通过里程空载率与营业额的结合可以推断出其余几个因素,所以其余因素可以舍弃。由于里程利用率是百分百减去里程空载率的值,所以,去掉里程利用率。
导入SPSS后的各变量格式修改为图2.3:
图2.3导入后的属性表
2.数据清洗
由于数据在获取时,可能产生一些差异,本文首先对数据进行了错误检验,删除了如下错误数据,比如营运额过大,不符合实际,比如见图2.4:
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/2515.html