大数据的学生信息分析系统(源码)

摘 要关键词:大数据;Hadoop;数据分析目 录
第一章 绪 论 1
1.1 引言 1
1.2 大数据在生活中的应用 1
1.2.1 概述 1
1.2.2 国内大数据应用现状 2
1.2.3 国外大数据应用现状 3
1.2.4 大数据在教育方面优势及应用前景 3
1.3 课题介绍 3
1.4 论文的组织结构 4
第二章 分析系统的需求分析和设计 5
2.1 方案设计 5
2.1.1 课题设计原因 5
2.1.2 传统解决方案 5
2.1.3 设计思路 5
2.2 系统模型 6
第三章 大数据环境的模拟 7
3.1 数据库的使用 7
3.2 日志文件问题 7
3.3 数据生成模拟器 7
3.3.1 日志格式及模板 8
3.3.2 RawData模块 10
3.3.3 SysLog模块 11
3.3.4 Document模块 11
3.3.5 运行方法 12
第四章 数据存储系统HDFS设计 13
4.1 Hadoop简介 13
4.1.1 HDFS原理介绍 13
4.2 Hadoop环境搭建 14
4.2.1 构建Linux环境 15
4.2.2 安装JDK 15
4.2.3 安装和配置Hadoop 16
4.2.4 启动HDFS 18
4.3 传递日志到HDFS 19
4.4 传递方法的改进 20
第五章 利用MapReduce数据处理 22
5.1 MapReduce介绍 22
5.2 MapReduce执行过程 22
5.3 基于MapReduce的日志分析处理 23
5.3.1 准备条件 23
5.3.2 Mapper过程 24
5.3.3 Reducer过程 24
5
 *好棒文|www.hbsrm.com +Q: *351916072* 
20
第五章 利用MapReduce数据处理 22
5.1 MapReduce介绍 22
5.2 MapReduce执行过程 22
5.3 基于MapReduce的日志分析处理 23
5.3.1 准备条件 23
5.3.2 Mapper过程 24
5.3.3 Reducer过程 24
5.3.4 执行MapReduce任务 25
5.3.5 执行结果 25
第六章 数据可视化 27
6.1 可视化工具选择 27
6.2 从D3到echart 27
6.3 数据的动态显示 28
6.3.1 数据的获取 28
6.3.2 获取最新数据 28
6.3.3 前端显示 29
总结和展望 31
致 谢 33
参考文献 34
第一章 绪 论
1.1 引言
随着互联网带动云计算的发展,大数据在社会扮演越来越重要的角色。大数据(Big Data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[]。
未来十年,在民生上,大数据可以让事情变得有据可循,处理事情更高效;从经济学的角度,大数据可以帮助我们理性的分析用户产生的数据,针对性的创造和产生价值;对于互联网的网络结构,大数据可以让各个实体组织产生联系,能够产生无组织结构,无形的控制着网络的发展。
1.2 大数据在生活中的应用
1.2.1 概述
随着社会的发展以及人们生活水平的提高,社会也进入到一个数据时代,人们在不断关注自身产生的数据,关注生活中的数据。在教育和学生这一个领域也是从传统数据转为大数据的时代,但我们还是了解的比较少。大数据这相对于传统数据的模型,有了不同的意义,下面通过对比来阐述大数据理念。
“不得不承认,对于学生,我们知道得太少”——这是卡耐基梅隆大学(Carnegie Mellon University)教育学院研究介绍中的一句自白,也同样是美国十大教育类年会中出镜率最高的核心议题。
由文献[]可知,大数据和传统数据的最本质的区别是在数据源的采集方式上。对于学生数据,传统的搜集方式是通过表格,统计学的方式,计算整体学生的各个方面的水平,比如学习成绩的平均值,班级同学身心健康的统计等等。这些数据是一个被动的过程,是对传统教育一种检查的反应。这些数据的产生,是通过类似于问卷调查,实地采访的方式获得的,是人工去获取,具有一定的主观色彩性。同时这样的搜集方式是周期性,阶段性的,学生在每个状态是不一样的,比如通常星期三学习效率比星期一星期五学习效率高,传统的数据分析不能展示出数据的动态变化。
然而对于大数据来说,大数据可以从整体和个体两个方面去关注学生的发展。由于数据是海量的,所以数据可以比较贴近真实情况反映学生生活。某个院学生最近在图书馆借书情况一直处于比较靠前的位置,借阅的书籍都是专业性比较强的,那么可以判定整个院的学风是出现改善的情况。根据数据也更能凸显出学生的个性,比如该院某学生在艺术方面借阅的书籍较多,那么当用可视化工具显示学生借书信息的时候,可以比较容易和其他学生区别开来,有针对性的了解学生个性。同时这些数据是学生主动产生的,是根据自身的需求和发展生成的,数据的真实性和可靠性更能使我们了解个体和整体学生的发展状况。?
大数据无疑是未来影响各行各业发展的最受瞩目的技术之一。计算机科学在大数据出现之前,非常依赖模型以及算法。人们如果想要得到精准的结论,需要建立模型来描述问题,同时,需要理顺逻辑,理解因果,设计精妙的算法来得出接近现实的结论。因此,一个问题,能否得到最好的解决,取决于建模是否合理,各种算法的比拼成为决定成败的关键。然而,大数据的出现彻底改变了人们对于建模和算法的依赖。当数据越来越大时,数据本身(而不是研究数据所使用的算法和模型)保证了数据分析结果的有效性。即便缺乏精准的算法,只要拥有足够多的数据,也能得到接近事实的结论。数据因此而被誉为新的生产力。例如,Google 在帮助用户翻译时,并不是

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2391.html

好棒文