深度学习的高校网络特征分析与应用系统设计(源码)
为了充分挖掘校园网络日志中由学生主动产生和设备自动收集的网络浏览信息,满足高校管理人员对高校学生个性化分析的要求,通过清华大学提供的开放中文词库,采用基于CNN和RNN等深度学习算法构建中文分类器,分析并提取高校学生网页浏览记录中有效的数据特征,对高校学生访问的URL链接进行信息爬取、分类,同时结合高校学生的课表数据,对高校学生的网络浏览行为结果进行量化,实现了学生网页浏览数据与学习态度之间的双向反馈。经过测试,对74万条新闻进行文本分类,分类准确率达到96.91%;对200万条学生网络日志中的URL进行爬取,能够确定156万条网页内容的类型,占总数的78%,为个性化分析和管理学生的网络行为习惯提供了基础。关键词 特征提取 行为分析 卷积神经网络 网页爬取 文本分类
目 录
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 3
2 需求分析 3
2.1 功能需求分析 3
2.2 系统业务流程 3
2.3 可行性分析 4
2.4 系统性能分析 5
3 关键问题研究 5
3.1 网页爬取技术 6
3.2 文本分词、分类方法 7
4 系统总体设计 9
4.1 网页链接预处理 9
4.2 文本分类算法 15
5 实验过程 21
5.1 原始数据预处理 21
5.2 网页链接预处理 22
5.2 分类模型 23
5.3 URL置信度评估 26
5.4 URL分类 27
6 系统模块设计 27
6.1 总体结构 27
6.2 模块设计 28
7 系统部署与结果测试 29
7.1 系统部署 29
7.2 系统测试 30
结 论 33
致 谢 34
参 考 文 献 35
附录A 用户操作手册 37
附录B 大学期间发表的论文 40
附录C 大学期间 *好棒文|www.hbsrm.com +Q: #351916072#
申请的发明专利 41
附录D 大学期间获得的竞赛证书 44
附录E 查重报告 49
1 引言
1.1 课题背景
随着国内外高校信息化建设的飞速发展,高校校园网络中由师生主动产生以及设备自动收集的信息也越来越多[1]。如何有效利用相关的网络信息,对高校学生进行网络行为分析,目前已经成为了社会各界关注的重点研究领域。网络技术的发展无疑为高校学生提供了一种较为便捷而且丰富的学习途径,但是日常生活的信息化也相应地带来了很多诸如网络色情,网络暴力,网络赌博,网络垃圾信息等不健康内容,这些内容很容易对心理尚不成熟的学生产生负面影响。
深度学习经过几十年的发展,其所涉及到的相关技术也已经在工业和学术上得到了充分的实践与应用。充分发挥高校日常使用的校园网网络平台优势,使用深度学习的相关技术,提取并分析校园网内大学生的网络浏览行为特征,既可以为高校的相关管理人员提供个性化的学生网络行为习惯的量化数据,方便相关人员对学生的管理,也可以为高校学生的个性化教学提供基础性的数据服务。
1.2 国内外研究综述
1.2.1 国外研究综述
最早出现的使用多层非线性特征的算法模型,是1965年由Ivakhnenko和Lapa发明的,这也被认为是第一个具有深度学习雏形的算法模型。在该算法中,Ivakhnenko对每一层的数据都通过统计方法得到最优的数据特征,然后传递给下一层,并且加强该数据特征的权重数值。与此同时,该算法模型同时对相互之间的数据进行了单独的拟合。1979年, Fukushima创造性的发明了卷积网络算法,此时的卷积网络算法与现在的网络很相似,但是并没有考虑到训练时产生的误差该如何消除,只是作为一种增强格式手动增加某些数据的权重以训练相关的数据的。1985年,Hinton,Rumelhart和Williams在Fukushima的卷积网络基础上加入了反向传播的概念——该概念是由Linnainmaa在1970年发表的论文中发明的,但是当时的使用形式还并不是特别完善[2][3]。加入反向传播的卷积神经算法,产生了具有价值的分布式特征。1989,年LeCun在贝尔实验室通过使用带有反向传播的卷积神经网络对手写的数字(MNIST)进行分类。目前,该实验仍然是深度学习流行的入门课程之一。随着电脑速度的进一步提高,以及GPU的运算能力加强,神经网络算法逐渐超过支持向量机(SVN)等相关的深度学习算法。2006年,Hinton提出了“深度学习”的概念[4]。 2012年,Krizhevsky, Sutskever和Hinton使用卷积网络架构,他们所设计的卷积神经网络架构修正了常见的线性的激励函数,并且使用了Dropout做正则化,在ILSVRC2012 ImageNet的比赛(ImageNet是目前世界上工人的最具有挑战性的比赛)上获得了卓越的成绩[5]。
2013年,第一届国际学习表征会议ICLR (International Conference on Learning Representations) 在美国召开,这是深度学习领域的顶级会议之一。在ICLR举办第一届时,谷歌投递了10篇论文,而到了2017年,该数字超过了50篇。与此同时,国际人工智能联合会议IJCAI (International Joint Conference on Artificial Intelligence) 、国际计算智能联合会议IJCCI (International Joint Conference on Computational Intelligence) 等顶级会议也相继开辟了深度学习专题[6][7]。
目 录
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 3
2 需求分析 3
2.1 功能需求分析 3
2.2 系统业务流程 3
2.3 可行性分析 4
2.4 系统性能分析 5
3 关键问题研究 5
3.1 网页爬取技术 6
3.2 文本分词、分类方法 7
4 系统总体设计 9
4.1 网页链接预处理 9
4.2 文本分类算法 15
5 实验过程 21
5.1 原始数据预处理 21
5.2 网页链接预处理 22
5.2 分类模型 23
5.3 URL置信度评估 26
5.4 URL分类 27
6 系统模块设计 27
6.1 总体结构 27
6.2 模块设计 28
7 系统部署与结果测试 29
7.1 系统部署 29
7.2 系统测试 30
结 论 33
致 谢 34
参 考 文 献 35
附录A 用户操作手册 37
附录B 大学期间发表的论文 40
附录C 大学期间 *好棒文|www.hbsrm.com +Q: #351916072#
申请的发明专利 41
附录D 大学期间获得的竞赛证书 44
附录E 查重报告 49
1 引言
1.1 课题背景
随着国内外高校信息化建设的飞速发展,高校校园网络中由师生主动产生以及设备自动收集的信息也越来越多[1]。如何有效利用相关的网络信息,对高校学生进行网络行为分析,目前已经成为了社会各界关注的重点研究领域。网络技术的发展无疑为高校学生提供了一种较为便捷而且丰富的学习途径,但是日常生活的信息化也相应地带来了很多诸如网络色情,网络暴力,网络赌博,网络垃圾信息等不健康内容,这些内容很容易对心理尚不成熟的学生产生负面影响。
深度学习经过几十年的发展,其所涉及到的相关技术也已经在工业和学术上得到了充分的实践与应用。充分发挥高校日常使用的校园网网络平台优势,使用深度学习的相关技术,提取并分析校园网内大学生的网络浏览行为特征,既可以为高校的相关管理人员提供个性化的学生网络行为习惯的量化数据,方便相关人员对学生的管理,也可以为高校学生的个性化教学提供基础性的数据服务。
1.2 国内外研究综述
1.2.1 国外研究综述
最早出现的使用多层非线性特征的算法模型,是1965年由Ivakhnenko和Lapa发明的,这也被认为是第一个具有深度学习雏形的算法模型。在该算法中,Ivakhnenko对每一层的数据都通过统计方法得到最优的数据特征,然后传递给下一层,并且加强该数据特征的权重数值。与此同时,该算法模型同时对相互之间的数据进行了单独的拟合。1979年, Fukushima创造性的发明了卷积网络算法,此时的卷积网络算法与现在的网络很相似,但是并没有考虑到训练时产生的误差该如何消除,只是作为一种增强格式手动增加某些数据的权重以训练相关的数据的。1985年,Hinton,Rumelhart和Williams在Fukushima的卷积网络基础上加入了反向传播的概念——该概念是由Linnainmaa在1970年发表的论文中发明的,但是当时的使用形式还并不是特别完善[2][3]。加入反向传播的卷积神经算法,产生了具有价值的分布式特征。1989,年LeCun在贝尔实验室通过使用带有反向传播的卷积神经网络对手写的数字(MNIST)进行分类。目前,该实验仍然是深度学习流行的入门课程之一。随着电脑速度的进一步提高,以及GPU的运算能力加强,神经网络算法逐渐超过支持向量机(SVN)等相关的深度学习算法。2006年,Hinton提出了“深度学习”的概念[4]。 2012年,Krizhevsky, Sutskever和Hinton使用卷积网络架构,他们所设计的卷积神经网络架构修正了常见的线性的激励函数,并且使用了Dropout做正则化,在ILSVRC2012 ImageNet的比赛(ImageNet是目前世界上工人的最具有挑战性的比赛)上获得了卓越的成绩[5]。
2013年,第一届国际学习表征会议ICLR (International Conference on Learning Representations) 在美国召开,这是深度学习领域的顶级会议之一。在ICLR举办第一届时,谷歌投递了10篇论文,而到了2017年,该数字超过了50篇。与此同时,国际人工智能联合会议IJCAI (International Joint Conference on Artificial Intelligence) 、国际计算智能联合会议IJCCI (International Joint Conference on Computational Intelligence) 等顶级会议也相继开辟了深度学习专题[6][7]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1174.html