高校学生网络习惯行为分析系统(源码)

为了帮助高校管理人员了解和改善高校学生的上网习惯、减少互联网的不良影响以及挖掘出高校学生的上网数据与高校学生的兴趣爱好之间的一般性联系,通过综合分析高校学生的上网记录、奖惩事项、学习成绩等数据,研究学生上网记录数据量化方法,采用基于LDA模型的文档聚类算法以及K均值聚类算法,设计实现了高校学生网络习惯行为分析系统。通过对三千多万条上网数据进行主题提取,并对与主题相关的关键词进行分析,得出了高校学生上网浏览内容的分布情况。经过分析,能确定2149人的具体分类,占总数41.70%;能确定4574人的模糊分类,占总数88.76%,为学生上网行为的分析与管理提供了有较好参考价值的系统模型。关键词 上网习惯,数据量化,K均值聚类,LDA模型,辅助分析系统 目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.2.1 国外研究综述 1
1.2.2 国内研究综述 2
1.3 课题来源 3
2 关键问题的研究 4
2.1 关键问题 4
2.1.1 数据预处理及量化 4
2.1.2 数据聚类分析 5
2.1.3 数据分类分析 5
2.1.4 数据量化 6
2.1.5 验证结果 6
2.2 关键技术 7
2.2.1 k-means聚类算法 7
2.2.2 LDA文档主题提取算法 7
2.2.3 Latent Factor算法 7
2.2.4 CRF条件随机场 7
3 系统总体设计 8
3.1 系统算法设计 8
3.1.1 系统预处理过程 8
3.1.2 k-means聚类 11
3.1.3 LDA文档主题提取 15
4 数据结构设计 20
4.1 初始数据预处理模块数据结构 20
4.1.1 原始数源数据结构 20
4.1.2 生成的数据结构 23
4.2 数据提供模块数据结构 24
4.2.1 查询条件的数据结构 24
4.2.2 查询结果的数
 *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
ns聚类 11
3.1.3 LDA文档主题提取 15
4 数据结构设计 20
4.1 初始数据预处理模块数据结构 20
4.1.1 原始数源数据结构 20
4.1.2 生成的数据结构 23
4.2 数据提供模块数据结构 24
4.2.1 查询条件的数据结构 24
4.2.2 查询结果的数据结构 25
4.3 k-means聚类分析模块数据结构 25
4.3.1 量化后的记录的数据结构 25
4.3.2 量化后的人员的数据结构 25
4.3.3 K均值聚类之后的结果的数据结构 26
4.4 LDA文档主题提取模块数据结构 26
4.4.1 LDA文档主题提取模块预处理数据的数据结构 26
4.4.2 LDA文档主题提取模块结果的数据结构 27
5 系统模块设计 27
5.1 初始数据预处理模块设计 28
5.2 数据提供模块 28
5.3 k-means聚类分析应用 28
5.4 LDA文档主题提取应用 29
6 系统部署与结果测试 29
6.1 系统部署 29
6.2 系统结果 30
6.2.1 k-means聚类分析结果测试 30
6.2.2 LDA文档主题提取结果测试 31
6.2.3 比较分析 34
结 论 35
致 谢 36
参 考 文 献 37
附录A 大学期间公开发明专利 39
附录B 大学期间完成的软件著作权 40
附录C 大学期间发表论文 41
引言
课题背景
随着互联网技术融入生活之中,数据挖掘技术在商业应用[1]的重要性受到了企业的重视。企业通过对大量的生活数据进行处理分析,从而揭示潜在的重要信息,并因此带来可观的经济效益。亚马逊、淘宝、网易等公司已将数据挖掘算法应用到生产环境中,并且凭此获得了可观的经济效益。例如网易公司使用的潜在因子算法和亚马逊购物商城使用的个性化的协同推荐算法。
高校学生的学习、生活和娱乐离不开网络。网络给大学生带来方便的同时,也会带来不良的影响。为了更好的帮助高校建立安全、健康的学习环境,有必要运用数据挖掘技术建立一套高校学生网络习惯行为分析系统。在不侵犯高校学生隐私的前提下,获取学生整体上网情况,帮助管理者在宏观上了解学生的学习和生活情况,从而避免学生沉迷网络。
现有针对高等院校学生的上网习惯的研究[2,3]仅仅对学生上网的数据进行简单的统计分析,并没有挖掘上网数据与学生生活、学习以及娱乐之间深层次的含义。
国内外研究综述
高校学生网络习惯行为分析系统是属于数据挖掘领域的应用。数据挖掘所使用的方法是人工智能、机器学习、模式识别以及数理统计等等领域的交集[4]。其主要目标是从数据集合里提取感兴趣的信息,再将这些信息转化为可理解的数据结构以便于将来的使用[5]。近年来数据挖掘在企业中有大量的应用,例如通过对通信量数据的分析增强网络的安全性[6]、通过对网页链接的分析调优网站性能[7]、通过对软件使用数据的分析发现潜在的软件错误[8]等等。系统结合数据挖掘的概念,首先将原始数据通过预处理过程生成可重用的数据,并使用这些可重用的数据进行分析。
国外研究综述
70年代的计算机的主要用途是存储数据和执行一些固定的流程。因此,当时的数据挖掘主要是用来取得数据库管理系统之间的依赖关系[9]。局限于当时的计算机性能以及理论的限制,这些数据挖掘的研究并没有取得满意的成果。
在80年代时,数据挖掘技术引起了足够的重视,在这一时期,人们将数据挖掘的性能进行量化,试图使用面向用户的性能指标去处理有许多性能指标的模型[10]。面向用户的性能指标测算方法使用三个主要指标来计算性能,这三个指标分别为速率、延迟和质量。与此同时,一种非监督的机器学习过程也得到了发展。这种学习方法通过建模工具PNETTR-4X去形成一个多项式网络,这也就是后来的适应性网络学习系统的基础。适应性网络学习系统可以用来做特征选择,较多的用于工业生产中的决策系统[4]。
90年代,随着信息呈爆炸式增长,网络上的数据变得更加难于管理。与此同时,数据挖掘技术也随之提高,这促进了神经网络算法、主成分分析算法(PCA)和其他处理复杂任务的算法的出现。在90年代后期,企业开始使用数据挖掘技术去发现系统异常,通常使用能够增量修建重复产生的误差的算法[11] (RIPPER)去将一些系统的一些异常现象进行分类,在判断类别之后通过电子邮件发送给管理者。这段时期的数据挖掘算法的特点是复杂度较低。
进入20世纪,数据挖掘技术有了较大的提升。这段时期的数据挖掘技术在系统管理和系统安全方面的作用更加凸

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1470.html

好棒文