结构特征的微博水军的识别

摘要:受潜在的商业利益的驱动,微博水军横行于话题与评论之间,对人们了解真实的结果产生了坏的、恶劣的影响,也成了正常用户的了解事实真相的障碍。本文分析了正常用户和水军的关系图,以此为研究切入点,分析出了水军拥有的特点,从用户属性中抽取了7个特征数据(粉丝数,关注数,相互关注数,注册时间,活跃度,关注速率,好友粉丝比),使用逻辑回归算法,基于学习数据集训练逻辑回归分类模型,得到可靠的回归系数,使用识别样本集实现水军的识别。研究中学习集为305个用户数据,具体的识别结果高达90%以上。研究结果表明逻辑回归分类模型在进行水军识别研究中的具有高准确性和可靠性。
目录
摘要1
关键词1
ABSTRACT1
KEY WORDS 1
引言
1 选题背景 1
1.1 问题的提出 1
1.2 国内外研究状况 2
1.2.1 国外研究状况 2
1.2.2 国内研究状况 2
1.3 研究的目的和内容 2
2 微博水军的识别 3
2.1 水军简介 3
2.2 用户关系 3
2.2.1 NetworkX库 3
2.2.2 基于NetworkX库的用户关系图绘制3
2.2.3 聚类系数 5
2.3 数据获取 6
2.4 特征选择 9
2.5 逻辑回归算法10
2.5.1 算法流程图11
2.5.2 数据分析12
2.6 算法对比分析13
2.6.1 Scikitlearn机器学习库 13
2.6.2 对比分析13
3 结论 14
4 不足 14
4.1 未实现全自动化数据获取14
4.2 未能提取可供计算使用的关系特征 15
5 总结与展望15
致谢 15
参考文献 15
基于结构特征的微博水军的识别
Based on Structure Characteristics
 *好棒文|www.hbsrm.com +Q: ¥3^5`1^9`1^6^0`7^2$ 
of Microblog of the Recognition of Public Opinion Viruses
Student majoring in computer science and technology ZHANG Ying
Tutor XIE Zhonghong
Abstract:Driven by the potential and huge commercial benefits, microblog’s public opinion viruses rampant between topics and comments, they not only have a bad and disgusting influence on normal users to understand the real result, but also become an huge obstacle to the normal users to explore the real truth. This paper analyzed the normal users and the public opinion viruses diagram clearly, which regarded as the starting point for the study, analysis of the characteristics of the public opinion viruses have been worked out seven extract characteristic data (such as the number of fans, the number of friends, the number of mutual concern, user’s register time, user’s activity, user’s attention rate and the rate of fans and friends). By using logistic regression algorithm, a learning data set classification training logistic regression model based on reliable regression coefficients, the study used the identified sample sets to achieve recognition the public opinion viruses. The study of learning set was three hundred and five users which including seventy five public opinion viruses. Specific recognition results was as high as ninety percent. The results showed that the logistic regression model during the classification the public opinion viruses recognition of having a high accuracy and reliability.
Key words: Microblog;Public Opinion Viruses;Logistic Regression;ScikitLearn
引言 互联网时代的到来,带了很多新潮的应用,极大地方便了大家的生活,也将人们的朋友圈从现实生活拓展到了虚拟的互联网世界。各种社交软件随着互联网的大潮应运而生,比如QQ,微博,人人等,微博的社交更为开放,不仅仅是社交应用,而是一个社交媒体。陌生人被允许访问用户的微博内容等等,同时,随着微博的更新与功能的完善,推出了热门话题,在功能的使用中,一些人从中发现了商机和引导舆论的力量,比如“3Q大战”就是被大量的水军炒上热门话题。热门话题的排榜按照一小时内评论和转发数量来衡量,因此,发动大量的用户参与其中,即可以将话题人为的刷到一个不错的排名,这样的大量用户可以是机器用户,也可以是真实用户,那么,这样的一个社交媒体,引导舆论导向最后的决定者到底是谁呢?
1 选题背景
1.1 问题的提出
互联网时代的到来,社会生活的高度信息化,使网络承载了蕴含着价值的大数据,如新浪微博、大众点评网、豆瓣等拥有海量用户的社会化网络媒体,已经广泛地被组织和个人用来进行辅助决策。巨大的用户群体蕴含着潜在的商机。为了人为控制事件的走向,使虚假意见和垃圾信息被广泛地制造和传播,该类危害的源头即俗称的网络水军。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2246.html

好棒文