高校社交圈与兴趣圈的挖掘与分析(附件)

为了帮助高校学工了解和改善高校学生的目前的行为状态与心理状态、也为了学生能够认识更多兴趣爱好相同的人,并且有一个更加适合学生的社交圈与兴趣圈,帮助学生进行自我兴趣的鉴定与识别,了解该兴趣的发展现状及前景。通过爬取并且分析分析高校学生的在社交平台上分享自己感兴趣的信息、发表的个人观点上网记录、转发的消息等数据,研究学生社交记录数据量化方法,采用结巴分词的方法、TF-IDF的计算权重的方法以及K-means聚类算法,设计实现了高校学生社交圈与兴趣圈的挖掘与分析系统。其中共爬取记录190895条,高校学生记录24054条。通过对高校学生的在社交平台上的数据进行提取,并对关键词进行分析,得出了高校学生社交范围与兴趣爱好的分布情况,能够确定兴趣圈的共有17044条,占总数70.86%;能够确定社交圈的有19550人,占81.27%;都能够确定的有14244条,占59.21%。为研究高校学生这个群体的社交范围与兴趣爱好提供了有一定参考价值的系统模型。关键词 兴趣爱好,社交范围,结巴分词,TF-IDF,K-means
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 2
1.2.1 国外研究现状 2
1.2.2 国内研究现状 2
1.3 课题来源 3
2 关键问题的研究 3
2.1 关键问题 3
2.2 关键技术 4
3 系统的总体设计 5
4 总体方案设计 6
5 详细设计 7
5.1 网络爬虫设计 8
5.2 数据库设计 12
5.3 数据处理 15
5.3.1 结巴分词 16
5.3.2 TDIDF 19
5.3.3聚类算法运用 22
6 系统部署与测试 26
结 论 35
致 谢 36
参 考 文 献 37
附录A 用户操作手册 39
1 引言
1.1 课题背景
随着网络的普及、流行,社交平台已经被被越来越多的网民所接受并且运用[1]。在国 *好棒文|www.hbsrm.com +Q: ^351916072# 
外较为流行的社交平台有SNS,Twitter、Facebook等而国内的社交平台诞生相对较晚,目前在国内较为流行的社交平台有新浪微博、QQ、微信和人人网等。其中我国新浪微博、QQ和微信的使用率最高,很多用户的设配上面都装有这三种社交平台软件甚至更多。在上述的这些社交平台上,用户们能够分享一些个人的信息可以对最近的热点话题进行讨论[2],可以学习一些自己想要的知识。以前在移动终端技术还没有非常发达的时候,人们只有能够只用计算机上网分享自己的点点滴滴。但是随着移动终端技术的发展,人们在社交平台的使用手段上逐渐趋于多样化。也随着越来越多的人们对社交平台的使用,目前每天网上产生的有关社交方面的数据可以说是数以亿计的,如何能够对这些社交数据进行挖掘[3],并且分析处理,肯定会发现一些有益于人类的信息来为以后的人类发展做贡献。
在社交平台众多的用户中,高校学生占了很大一部分比例。目前来说,高校学生生活的方方面面都已经离不开社交平台。高校学生是社交平台用户中较为活跃的群体,同时高校学生又是社会上面一个特殊的群体,他们虽然接受过良好的教育但还并没有完全融入社会,他们是由国家培育的一类高级人才。在另一方面尤为重要的是在技术方面以及思想上大学生是走在社会的前沿的。大学生年轻富有活力,他们是推动社会发展进步所不可缺的重要一环[4]。所以了解高校学生的社交范围与兴趣爱好不仅对其自身意义重大更是为了帮助学校对学生进行更好的管理,了解目前学生的情况为学生建立良好的学生及生活环境,可以使用数据挖掘技术及机器学习技术为学校及学生建立一套高校学生社交圈与兴趣的挖掘与分析系统。系统在不侵犯学生个人隐私的前提之下通过获取学生在社交平台上的一些信息然后分析,帮助学工在宏观上了解学生的学习和生活情况已经学生目前的心理状态,帮助学生自己身更加了解自身的社交与兴趣爱好从而有利于学生本身的发展。
目前针对社交平台的兴趣爱好以及社交挖掘的研究已经有取得众多成果,例如新浪微博、人人网都已经提供API接口以供一些有需要的研究人员进行研究分析[5],但是目前来说,很多的研究对象都是社交平台上的所有用户,并没有大量研究来针对高校学生这一类特殊的群体,有的一些研究也只是对学生的一些数据进行了表面的分析研究,并没有挖掘这些社交数据与学生在个人生活方面的更深层次的研究。
1.2 国内外研究综述
数据挖掘能够根源追溯到沿着三个方面[6]。第一方面是经典统计。没有统计数据,没有数据挖掘,统计数据大多数技术的基础上构建数据挖掘。数据挖掘的第二方面是人工智能,这种方法需要巨大的计算机处理能力[7]。第三方面是机器学习,这更准确描述统计和人工智能的结合。
1.2.1 国外研究现状
与许多技术一样数据挖掘艺术的发展过程可以说是循序渐进的。有关数据挖掘这面的思想最早可以追溯到20世纪的70年代,随着数据量的不断增大,平均的数据量增长速度惊人,通过人工分析数据已经慢慢的跟不上当时时代的需求,人们变开始寻找更好的方式来对数据进行挖掘与分析,即通过机器学习的方式来分析处理数据[8]。随后进入到上个世纪80年代,由于数据挖掘的方便性数据挖掘技术越来越被人们所重视,研究人员尝试使用面向用户的性能指标区将数据挖掘中的数据进行量化,并且建立了许多重要的模型,KDD一词也是80年代后期出现,并且人们KDD一词来描述整个数据发掘的过程。到了上世纪90年代尤其是随着计算机技术的飞速发展,全球的信息量、数据量可以说是爆炸是增长,人们越来越意识到数据挖掘的重要性。进入21世纪,数据挖掘技术有了较大的提升,主要是在算法方面的进展神经网络,k近邻算法等[9]。
1.2.2 国内研究现状
我国在数据挖掘方面开展较国外来说,发展较晚最早可以追溯到上个世纪的90年代,Jiawei Han等提出面向属性的归纳方法,这算是我国在数据挖掘历史上的一个开端,然后在1993年,由R. Agrawal等人提出关联规则技术同时在1993年E.F.CODD博士提出了OLAP技术,即联机分析处理(Online Analytical Processing)。国内关于OLAP的研究[10],缺少实质性的、深入的研究。在聚类、分类方面,我国研究的方向主要是对已经提出来的各种分聚类方法进行分析然后完成。当然我国政府也十分重视数据挖掘技术的发展,开展一系列的研究计划,十分重视数据挖掘技术,对于数据研究实施大量的措施。例如在我国科技部在“十二五”规划中,部署了云计划专项;其中国家的两项计划中都建立了针对数据挖掘的专项和计划。
1.3 课题来源
高校学生社交圈与兴趣圈的挖掘与分析系统,它的来源起于高校管理的实际需求。目前来说,高校学生的学习、生活以及娱乐各个方面都离不开社交平台。学生们也乐于在这些平台上分享自己生活的点点滴滴。本系统通过数据挖掘技术来抓取并且分析高校学生在社交平台分享的信息,不仅对其自身意义重大并且对整个社交平台运营商都有着至关重要的影响。对于高校可以从整体上把握学生的当前阶段的一些状态,从而起到对学生的管理作用。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wlw/537.html

好棒文