并行计算的高校学生上网数据分析与处理(源码)

为了提高对数据挖掘与分析的效率,对于海量数据的分析,以学生上网数据为研究背景,采用Parallel?Java?2的并行处理框架,研究并开发了基于并行计算的高校学生上网数据分析与处理系统。系统主要研究提升K-means聚类算法以及基于LDA文档主题模型的聚类算法在数据预处理阶段的运行性能。系统通过对比分析并行算法与非并行算法的运行效率、CPU占用率以及内存使用率,确定合适的并行处理算法。系统对3154万条记录进行并行计算处理,实验在20个处理器核心的CPU运行中,其占有率在1868%左右,在4个处理器核心的CPU运行中,其占有率在387.8%左右,在单核中CPU的使用率可以达到95.0%,验证多核执行时间短于单核。关键词 上网记录,数据分析,并行计算,Parallel?Java?2框架目 录
1 绪论 1
1.1 引言 1
1.2 研究背景 1
1.3 国内外研究现状 1
1.4 本课题的研究内容 2
2 关键问题的研究 2
2.1 关键问题 3
2.2 关键技术 3
3 系统总体设计 12
3.1 系统预处理过程 12
3.2 算法设计 16
4 详细设计 19
5 实验分析 23
结 论 29
致 谢 30
参考文献 31
1 绪论
1.1 引言
基于互联网的用户群在日益的增加,每天都会产生大量的数据尤其是在众多的高校学生当中有非常多的上网数据。如果只是通过传统简单的方法对数据进行查看与管理,不可能解决当前网络的发展趋势所带来的大量的信息,大数据的处理技术正在改变着当前的网络的发展趋势。大数据的处理技术不仅给社会带来了巨大的经济效益,也可以帮助大家很好地了解自动的处理大量数据的方法与方式,例如文章、视频、音乐等海量数据的技术存在着潜在的广阔的市场。
当前的形式下,对数据进行有效的管理、分析、并挖掘其中有效的信息,对数据进行统计分析与预测。对于高校学生的上网数据来说,网络的日志文件以及路径中存在着大量的信息。研究人员可以从日志文件中,了解学生对软
 *好棒文|www.hbsrm.com +Q: ^351916072* 
当前的网络的发展趋势。大数据的处理技术不仅给社会带来了巨大的经济效益,也可以帮助大家很好地了解自动的处理大量数据的方法与方式,例如文章、视频、音乐等海量数据的技术存在着潜在的广阔的市场。
当前的形式下,对数据进行有效的管理、分析、并挖掘其中有效的信息,对数据进行统计分析与预测。对于高校学生的上网数据来说,网络的日志文件以及路径中存在着大量的信息。研究人员可以从日志文件中,了解学生对软件的使用情况、学生的上网习惯、可以分析学生的上网模式、了解学生的爱好。
1.2 研究背景
互联网是一把双刃剑,带来方便的同时也造成了许多不良的影响快速的发展以及全方位的渗透,推动力整个社会的发展。尤其是20世纪90年代以后,越来越多的人将生活以及学习的重心转移到网络中去,使用互联网的用户群增加的速度较快,因此带来的问题也日益显著。
在高校中学生上网成为学生每天的必修课,如何更好地对学生的行为进行追踪,同时为了建立干净高效的学习氛围,使得高校管理人员更好的定位学生的发展,充分利用学生的课余时间,提高学生的身体素质需要对学生的上网时间进行有效的管理,跟踪以后的行为分析也是势在必行。
如何高效快速的对学生的行为进行分析,本文以并行计算对上述的数据进行分析,帮助管理人员很好的掌握网络数据,并且通过这样的学习方式了解大学生的学习与生活的品质与质量。
1.3 国内外研究现状
近几年并行计算出现了新的发展:以多核为主流的体系结构、以数据为中心的云计算、以普及应用为宗旨的个人高性能计算机[1]。以多核为主流的体系结构:多核的发展起源于20世纪90年代,由于技术条件的限制并没有成为当时的主流,随着芯片的出现多核技术有了发展。多核的并行计算实质是将一个或多个计算机内核集成到同一个处理器中,在执行命令时可以一个甚至是多个共同进行处理,在相同的时间内可以执行较多地任务,完成比单核处理器较多地工作从而使计算机的效率提高。以数据为中心的云计算,既是将用户的所有信息集成共享,使系统可以同时访问这些数据进行操作,同时该计算方法对服务器端的并行处理的技术要求比较高。以普及应用为宗旨的个人高性能计算机,高性能是指它在运算速度、数据传输速度、计算速度要比普通的计算机要快,主要有成本低、功耗低、噪音少、性能高等优点。并行计算面临着许多的挑战,多核化的并行计算机[2]与传统的单核CPU相比较,有更强的并行处理能力和较高的时钟频率,减少了散热与功耗。多核的芯片核心就是实现资源的共享伴随着多核技术的发展,并行计算机系统的高效能问题浮出水面。与此同时不仅让系统的设计变得复杂也给计算机系统的算法与编程带来了很大的困难它使得代码的重用以及迁移变得很棘手 国外对并行技术的研究主要集中在对并行技术的设计与实现、各种类型之间的通信(包括同构的以及异构的机群)并行化编译设计粗中细三个层级的并行化编译、高性能微处理器的设计、高性能I/O的设备以及通信技术的研究等方面。并行程序的编程方法主要有基于消息传递的MPI以及PVM编程基于向量共享的Open MP编程编程,但每一种编程的方法都有其局限性与优点具体使用哪一种编程要根据实际情况进行分析于选择。并行计算的算法有PARM模型H-PARM模型Log模型、C3模型以及BDM模型[3],由于目前的计算机正处在飞速发展的阶段,因此并没有通用的并行计算的模型,人们只有根据当前算法的特性选择适当的模型。算法根据运算对象的不同分为数值并行算法、非数值并行算法,根据执行顺序的不同分为同步并行算法、异步并行算法,根据计算任务密集程度分为独立并行算法细粒度并行算法中粒度并行算法大粒度并行算法其中大粒度并行算法是目前经常使用的一种并行计算的方法[4]。
1.4 本课题的研究内容
本文主要讨论了提出了对用户行为分析的过程,通过访问分析校园网行为留下的日志,主要对学生这个群体进行分析,并以他们的上网行为作为研究的目标侧重于了解校园网的用户的学生上网行为的概括以及分析群体的行为特征与使用时间,同时关注学生沉迷网络的行为,通过实时的分析、统计。在对数据进行分析时需要注重于提高数据处理、数据分析的效率。本课题研究内容的核心是提高对数据处理分析过程的效率[5]。
2 关键问题的研究
主要是对于如何提高数据的预处理、分析处理的过程效率,对学生的上网数据进行分析,首先需要提高对初始上网数据进行预先处理的效率,形成结构化的数据集合,然后对数据进行聚类和分类操作,从而获得学生上网情况。
因此对于本课题核心的要求从提高数据预处理、聚类分析的过程效率来分析。
2.1 关键问题
在本系统中提高数据的分析处理的效率,可以从很多的方面去实现对于数据预处理的过程,如果只是采用串行的方式对数据进行处理,那将会浪费大量的时间,所谓的串行[6]就是软件在一台只有一个的CPU的电脑上运行、问题被分解成离散的不同的指令,在本系统中对应着不同的算法,但是这些算法的执行时一条接着一条的,在同一个时间节点中只有一个算法被执行,执行的效率很低,所以对于如何提高数据处理的过程的效率是非常重要的,因此,本课题在这里就体现了并行计算的好处,所谓的并行计算就是使用多个资源去解决可计算的问题,使用多

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1475.html

好棒文