数据分析的高校画像系统设计(源码)
高校学生画像系统设计主要包括绩点预测和学生画像两个部分,其中,绩点预测算法基于Python语言开发实现,从数据的收集及预处理,到利用多种算法对学生的绩点进行预测,最后将之和其他数据一起在画像系统中呈现。本系统的数据来源比较复杂,涉及学校多个部分,有来自学校教务网的历史成绩数据,来自信教中心的学校消费数据及深信服系统的网页浏览数据,有来自学生处奥兰系统的公共服务数据及获奖数据以及体育部提供的运动会学生获奖数据,通过ETL处理,将原始数据转化为预测算法可用的格式。2016级学生3837人,具体实验结果多个模型的高校学生绩点预测的预测结果80%-120%命中率为96%。关键词 绩点预测,学生画像,XGBoost,lightGBM,数据挖掘
目 录
1.1 课题背景 3
1.2 国内外研究综述 3
1.3 课题的来源 4
2 需求分析 5
2.1 可行性分析 5
2.2 系统功能与业务分析 5
2.3 性能分析 6
3 关键问题的研究 6
3.1 数据处理 6
3.2 关键技术 8
4 系统总体设计 10
4.1 学生绩点预测算法 11
5 数据结构设计 16
5.1 数据来源与格式 16
5.2 高校学生绩点预测数据集 19
5.3 高校学生画像数据集 20
6 系统设计 21
6.1 设计概述 21
6.2 总体架构 22
6.3 功能设计 23
6.4 类的详细设计 24
6.5 界面设计 25
6.6 接口设计 31
7 系统测试与部署 34
7.1 系统部署 34
7.2 系统测试 34
结 论 38
致 谢 39
参 考 文 献 40
附录A 用户操作手册 42
附录B 大学期间公开的发明专利 49
附录C 大学期间发表的论文 50
附录D 大学参与的项目 55
引 *好棒文|www.hbsrm.com +Q: ¥351916072¥
言
课题背景
数据挖掘是一门有着悠久历史的学科。它从早期的数据挖掘方法贝叶斯定理(18世纪)和回归分析(19世纪)开始,这些分析主要是识别数据中的模式。近年来,随着信息技术的发展,信息量已经积累到了一个惊人的程度,互联网、物联网、移动互联网等都在疯狂的产生大量数据。
高校学生在学习和生活中会产生大量的数据,如成绩数据、消费数据、运动锻炼数据等,但是,在现阶段的大学管理中,每个部分的数据之间不存在关联,只是为了便于入后查找而保存。本设计通过数据预处理,将现阶段大学管理的数据整合成为可以用于数据挖掘的数据集,再用这些数据进行绩点的预测,基于预测的结果做学生画像。
当前已有的涉及教育数据挖掘的系统较为简单,且都是偏向教育学方向的,并且预测的数据也较为简单,没有从学习行为习惯、网络浏览习惯、公共服务、运动行为习惯和消费行为习惯5个角度综合起来去分析。
国内外研究综述
高校学生绩点预测和学生画像系统属于数据挖掘领域[1]。在数据挖掘这个领域中,教育数据挖掘是比较新的部分,指的是使用教育相关的数据去做教育相关的事,如成绩预测并对学习能力较弱的学生提早进行干预,以达到对成绩较弱学生成绩的提高[2]。
国外研究综述
技术的日益强大和数据集的复杂性使得数据挖掘公司从静态数据交付演变为更加动态和主动的信息交付,从磁带和磁盘到高级算法和海量数据库[3]。
在80年代后期,统计学家,数据分析师和管理信息系统(MIS)社区开始了解和使用数据挖掘术语[45]。
到了20世纪90年代初,数据挖掘被认为是一个子过程或者是一个称为数据库知识发现(KDD)的更大过程中的一个步骤,这使得它成为受欢迎的研究领域[6]。
除了技术,数据存储功能和计算机处理速度的快速增长之外,并且在专门的会议的帮助下,数据挖掘在1990年代的知名度也得到了提升。研究组织也可以使用计算机以可读形式保存数据,并且使用台式机器处理大量数据[7]。
到1990年代末,数据挖掘技术已经是这些组织在引入顾客会员卡之后所使用的一种著名技术[89]。这为盈利组织打开了一扇大门,可以记录客户的购买和数据,可以挖掘所得到的数据以识别客户的购买模式。在过去的十年里,数据挖掘的普及率一直在迅速增长[10]。
尽管数据科学这个术语自20世纪60年代就已经存在,但直到2001年,William S. Cleveland才将它作为一门独立的学科加以介绍。根据Build Data Science Teams,DJ Patil和Jeff Hammerbacher随后使用该术语来描述他们在LinkedIn和Facebook上的职位[11]。
2015年,DJ Patil成为白宫首位首席数据科学家。今天,数据挖掘在商业,科学,工程和医学等领域都很普遍。信用卡交易,股票市场走势,国家安全,基因组测序和临床试验的挖掘只是数据挖掘应用的冰山一角。像大数据这样的术语现在普遍存在,数据收集越来越方便便宜[1213]。
图1.1 数据挖掘系统图
国内研究综述
因为计算机整体行业发展相对于美国等国家较晚,所以数据挖掘的发展相对于国外也较晚。但是因为近几年国内人工智能领域的发展,数据挖掘的发展也同样迅速,天池等竞赛平台为国内数据挖掘方面的学生、研究者提供了平台[1314]。
在算法研究上,国内的算法研究也有比较大的发展,例如:杨妮亚,彭涛等人利用决策树和聚类算法对网络中的链路进行预测[15];李振军,代强强等人将聚类算法用于图结构的社交关系数据挖掘中[16];陈锦富、赵小磊等人基于数据挖掘提出了一个对第三方构建进行安全性测试的模型及框架[17]。
目 录
1.1 课题背景 3
1.2 国内外研究综述 3
1.3 课题的来源 4
2 需求分析 5
2.1 可行性分析 5
2.2 系统功能与业务分析 5
2.3 性能分析 6
3 关键问题的研究 6
3.1 数据处理 6
3.2 关键技术 8
4 系统总体设计 10
4.1 学生绩点预测算法 11
5 数据结构设计 16
5.1 数据来源与格式 16
5.2 高校学生绩点预测数据集 19
5.3 高校学生画像数据集 20
6 系统设计 21
6.1 设计概述 21
6.2 总体架构 22
6.3 功能设计 23
6.4 类的详细设计 24
6.5 界面设计 25
6.6 接口设计 31
7 系统测试与部署 34
7.1 系统部署 34
7.2 系统测试 34
结 论 38
致 谢 39
参 考 文 献 40
附录A 用户操作手册 42
附录B 大学期间公开的发明专利 49
附录C 大学期间发表的论文 50
附录D 大学参与的项目 55
引 *好棒文|www.hbsrm.com +Q: ¥351916072¥
言
课题背景
数据挖掘是一门有着悠久历史的学科。它从早期的数据挖掘方法贝叶斯定理(18世纪)和回归分析(19世纪)开始,这些分析主要是识别数据中的模式。近年来,随着信息技术的发展,信息量已经积累到了一个惊人的程度,互联网、物联网、移动互联网等都在疯狂的产生大量数据。
高校学生在学习和生活中会产生大量的数据,如成绩数据、消费数据、运动锻炼数据等,但是,在现阶段的大学管理中,每个部分的数据之间不存在关联,只是为了便于入后查找而保存。本设计通过数据预处理,将现阶段大学管理的数据整合成为可以用于数据挖掘的数据集,再用这些数据进行绩点的预测,基于预测的结果做学生画像。
当前已有的涉及教育数据挖掘的系统较为简单,且都是偏向教育学方向的,并且预测的数据也较为简单,没有从学习行为习惯、网络浏览习惯、公共服务、运动行为习惯和消费行为习惯5个角度综合起来去分析。
国内外研究综述
高校学生绩点预测和学生画像系统属于数据挖掘领域[1]。在数据挖掘这个领域中,教育数据挖掘是比较新的部分,指的是使用教育相关的数据去做教育相关的事,如成绩预测并对学习能力较弱的学生提早进行干预,以达到对成绩较弱学生成绩的提高[2]。
国外研究综述
技术的日益强大和数据集的复杂性使得数据挖掘公司从静态数据交付演变为更加动态和主动的信息交付,从磁带和磁盘到高级算法和海量数据库[3]。
在80年代后期,统计学家,数据分析师和管理信息系统(MIS)社区开始了解和使用数据挖掘术语[45]。
到了20世纪90年代初,数据挖掘被认为是一个子过程或者是一个称为数据库知识发现(KDD)的更大过程中的一个步骤,这使得它成为受欢迎的研究领域[6]。
除了技术,数据存储功能和计算机处理速度的快速增长之外,并且在专门的会议的帮助下,数据挖掘在1990年代的知名度也得到了提升。研究组织也可以使用计算机以可读形式保存数据,并且使用台式机器处理大量数据[7]。
到1990年代末,数据挖掘技术已经是这些组织在引入顾客会员卡之后所使用的一种著名技术[89]。这为盈利组织打开了一扇大门,可以记录客户的购买和数据,可以挖掘所得到的数据以识别客户的购买模式。在过去的十年里,数据挖掘的普及率一直在迅速增长[10]。
尽管数据科学这个术语自20世纪60年代就已经存在,但直到2001年,William S. Cleveland才将它作为一门独立的学科加以介绍。根据Build Data Science Teams,DJ Patil和Jeff Hammerbacher随后使用该术语来描述他们在LinkedIn和Facebook上的职位[11]。
2015年,DJ Patil成为白宫首位首席数据科学家。今天,数据挖掘在商业,科学,工程和医学等领域都很普遍。信用卡交易,股票市场走势,国家安全,基因组测序和临床试验的挖掘只是数据挖掘应用的冰山一角。像大数据这样的术语现在普遍存在,数据收集越来越方便便宜[1213]。
图1.1 数据挖掘系统图
国内研究综述
因为计算机整体行业发展相对于美国等国家较晚,所以数据挖掘的发展相对于国外也较晚。但是因为近几年国内人工智能领域的发展,数据挖掘的发展也同样迅速,天池等竞赛平台为国内数据挖掘方面的学生、研究者提供了平台[1314]。
在算法研究上,国内的算法研究也有比较大的发展,例如:杨妮亚,彭涛等人利用决策树和聚类算法对网络中的链路进行预测[15];李振军,代强强等人将聚类算法用于图结构的社交关系数据挖掘中[16];陈锦富、赵小磊等人基于数据挖掘提出了一个对第三方构建进行安全性测试的模型及框架[17]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/943.html