新浪微博用户行为特征研究(附件)

摘要:本文利用开源网络爬虫项目作为检索工具,对新浪微博用户信息、用户关系及微博文本等数据进行获取。依据其他学者对社交网络用户分析的研究方法,对其中用户的关注数、粉丝数,发微博数、转发微博数等几组关键性数据进行统计,利用Spearman相关系数对其进行相关性分析,并进一步用粉丝数和转发数通过K-Means聚类算法对用户进行聚类分析,利用Gephi绘制用户关系网络图谱。多个角度研究结果表明上述用户属性与信息特征均具有统计特性,用户也可以依据其信息交流行为分为三个类型,分别为微博热点型、中度热点社交型、普通信息获取型。
目录
摘要 2
关键词 2
Abstract 2
Key words 2
引言 3
一、微博用户行为概述及研究现状 3
(一)虚拟社群及微博用户行为概述 3
(二)微博用户行为相关研究现状 4
二、研究方法与数据来源 4
(一)数据采集方法 4
(二)数据采集内容 5
(三)数据获取过程 5
三、结果及其分析 6
(一)数据预处理 6
(二)数据样本可行性分析 7
(三)新浪微博用户行为特征分析 7
1.描述性统计分析 7
2.用户粉丝数、关注数和微博数相关性分析 9
3.用户微博转发数和评论数相关性分析 10
(四)新浪微博用户行为KMeans聚类分析与特征划分 10
1.KMeans聚类 10
2.数据可视化验证 12
四、结论与建议 12
五、致谢 13
参考文献 14
图 1 微博用户关系图 3
图 2 微博用户省份、性别交叉图 7
图 3 新浪微博用户粉丝数与频数散点图 8
图 4 新浪微博用户关注数与频数散点图 9
图 5 新浪微博用户微博数与频数散点图 9
图 6 新浪微博用户行为特征分类图 12
图 7 新浪微博用户网络图 12
表 1 数据项设定表 5
表 2
 *好棒文|www.hbsrm.com +Q: *351916072* 
user数据样例表(局部,20个ID) 6
表 3 用户关注数、粉丝数相关矩阵 11
表 4 微博转发数、评论数相关矩阵 11
表 5 最终聚类中心 12
表 6 每个聚类的案例个数 12
新浪微博用户行为特征研究
引言
近年来,微博(Microblog)作为一种新型的网络社交服务,不仅为广大的网络用户提供了一个分享信息的平台,使得每个个体都可以成为自媒体;同时也成为了一个巨大的定制化社交平台,人们通过微博可以及时获取自己关注的账户的动态,并进一步与其互动、交流。微博的社会交往特性为其带来了强大的用户组织能力,这是传统的社交网络以及线下交往平台所不具备的。
而且,随着WEB2.0与移动互联网的不断发展,用户可以借助移动通讯工具来使用微博,为用户节省了信息筛选的时间。信息传播时延大大缩短,信息传播途径大大扩宽,这使得微博成为当下社会重要的媒体之一。
CNNIC 发布的第33次《中国互联网络发展状况统计报告》显示,截至 2014 年底,我国网民规模达到 5.64 亿,微博用户为 3.09亿[]。鉴于其庞大的用户群,微博成为移动互联网时代的又一关键应用。可以说,微博的发展记录了人们的生活,见证了社会的进步。目前,新浪微博占据了国内微博市场的大多数份额,如此大的用户群也使得对其的用户行为特征研究成为了热点。
一、微博用户行为概述及研究现状
(一)虚拟社群及微博用户行为概述
归根结底,微博属于一种可以进行即时信息交流的虚拟社群,而有关虚拟社群用户行为的定义至今未有确切定义。根据学者金燕以及王晓斌对其的研究,可以总结为虚拟社群用户是指在科研、生活、娱乐及其他实践活动中需要进入虚拟社群中获取、发布和交流信息的个体和团体,其行为可以归结为在信息需求和思想动机的支配下,在虚拟社群特定的环境中,进行网络信息的创建、发布、交流、选择、吸收以及利用等活动[]。
当然,微博作为一种特殊的虚拟社群,自然区别于传统的虚拟社群而有其特点。作者发现,在使用新浪微博的过程当中,用户接收到的微博并不是无限制的,而是来自用户所关注的用户发布的,并且,即使对方如果并未关注自己,也并不会影响自己接收对方发布的微博。
根据美国社会学家格兰诺维特,新浪微博中的用户关系从传播学意义上讲是一种弱关系,具体是指个人的社会网络同质性较弱(即交往的人群从事的工作,掌握的信息并不都是趋同的),人与人的关系是比较疏松的,不依靠很强的情感因素维系着人际关系[]。这种弱关系在微博上的“加V”账号上可以体现地十分明显。但是,这并不意味微博上不存在具有强关系的用户关系,弱关系中依然有部分强关系的存在。
微博用户之间的关系行为基本上可以归结为两类:单向关系和双向关系(详见图1)。
如果用户甲“关注”了用户乙,那么用户甲就被称为用户乙的关注者。在这里,“关注”一词的实际含义是指订阅,即是用户甲会接收到用户乙的微博。同样的双向关系则是指用户之间相互关注,即是甲、乙会互相接收到对方发布的微博[]。这样的用户关系实际上打破了传统社会交往的很多限制,使得人们在虚拟社群的交往范围大大扩展,选择也更为自由。
同样,新浪微博的信息传播遵循着传统的信息论模型,即“信源—信道—信宿”模型,只是在互联网时代增加了许多新的特性,用户在发布信息的同时即会发送到其关注者的微博终端,其关注者在接收到微博之后,可以即刻对该信息进行评论或者转发,分享给更多的用户。
这也就解释了为何在很多领域中人类的行为按照非Poisson过程分布,这些行为被描述为大量长时间的无活动,期间又夹杂着快速发生的突发事件[]。互联网时代正是符合这样的重尾分布理论,于是人们在行为动力学的基础上提出一些理论,来解释实践发生的起源以及事件传播的末梢。
(二)微博用户行为相关研究现状
国内外学者关于微博用户行为的研究可以归纳为以下几个方面。
在国内学者中,学者曲豫斌、李芳等通过问卷调查获取用户数据,并使用改进后的方法目的链理论对数据进行分析,总结出了可依赖的数据源与社会关注热点是微博用户发布微博的最主要原因及动力[]。学者夏雨禾等对新浪微博信息交流互动的机制研究[]。学者王晓光,根据采集到的新浪微博的用户数据,全面地研究了新浪微博的用户关系模式以及信息传播机制,通过随机考察新浪微博用户的信息行为特征,最终从定量角度建立了微博影响力回归方程[]。
在国外学者中,学者Nardi也对微博用户的使用动机进行了讨论,人们使用微博主要用来分享有价值的经验、观点,并热衷与对其评论[]。学者Broder等发现微博文本中的网站链接等一些属性的度按照幂率分布[]。学者Java等从用户行为需求的角度出发,使用HITS算法来计算Twitter用户的权威度以及中心度,并对Twitter的用户的行为进行分类,包含信息共享行为、信息搜集行为与朋友交往行为[]。学者Naaman等也利用搜集到的Twitter用户信息状态,通过文本词频统计与内容分析,将其划分为以信息分享、意见与抱怨、随机想法、个人信息为主的等九个大类[]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1071.html

好棒文