java爬虫的新浪微博数据分析系统(源码)【字数:8918】

摘 要从2012年开始,Web2.0的发展更是突飞猛进,中国网民的参与度和活跃性呈现爆炸式增长,这一情况的出现,与一种新媒体形态的诞生不无关系—微博。新浪微博平台提供一些数据接口(API)供研究人员获取研究数据,API使数据的获取不再难,但是API对用户权限和获取频率做出了一些限制,这也使研究者对微博内容的搜索难度大大增加。对此,本文提供了一种基于Java语言的新浪微博网络爬虫,方便新浪微博数据获取。基于Java爬虫的新浪微博数据分析系统,采用Java语言编写爬虫,在Windows8系统环境下以IntelliJ-IDEA为开发工具,采用现在流行的Springboot全新框架去简化应用的初始搭建和开发过程,程序通过爬虫模拟登陆网页版新浪微博获取相关数据,通过定时任务解决单IP爬取数据限制,并将爬取的数据保存在本地Mysql数据库中。本文以山东鲁能足球队新浪微博为研究对象,爬取队员微博数据,并进行进一步分析,最终结果采用Html与Echarts结合的网页呈现数据结果。经过测试,本系统可以有效爬取新浪微博数据,并将数据存入本地数据库Mysql。与以往以Python爬虫不同,本系统采用Java爬虫,通过定时任务解决单IP爬取数据限制,使研究者可以更方便、更高效的利用新浪微博官方API。本系统也通过鲁能足球队球员的新浪微博数据进行了更深的分析,分析出球员的粉丝是否存在网络水军的现象以及球员粉丝还关注其他那些热点博客。
目 录
第1章 前言 1
1.1研究背景 1
1.2国内外研究现状 1
1.3研究目的和意义 1
1.3.1研究目的 1
1.3.2研究意义 2
1.4全文组织结构 2
第2章 基于Java爬虫新浪微博数据分析系统数据获取与存储 3
2.1Java爬虫的设计 3
2.2数据的获取 4
2.1.1微博内容获取 4
2.1.2用户关系获取 6
2.3数据库的设计 6
第3章 新浪微博数据分析系统的设计 8
3.1新浪微博数据分析系统的设计 8
3.1.1爬取数据的分析 8 *好棒文|www.hbsrm.com +Q: &351916072& 

3.1.2数据分析结果的呈现 8
3.1.3鲁能足球队实例分析方法以及结果 9
第4章 系统实现 13
4.1主要界面设计 13
第5章 基于Java爬虫的微博数据分析系统测试 16
5.1数据接口的稳定测试 16
5.2总体功能测试 19
第6章 总结与展望 24
6.1总结 24
6.2 展望 24
附 录 25
参 考 文 献 27
致 谢 28
第1章 前言
1.1研究背景
21世纪无疑是网络时代,计算机的突飞猛进的发展极大促进中国网民网络参与度和活跃性。微博[1],是微型博客(MicroBlog)的简称,被中国网民亲切的成为“围脖”。和传统的博客相比,其发布更便利,传播更迅速,使其在Web2.0时代迅速蹿红。对于这一公共信息传播媒体,如何高效率的获取其数据就显得尤为重要。本文以新浪微博数据接口(API)为研究对象,利用Java爬虫模拟登陆新浪微博网页爬取山东鲁能足球队员微博数据,以及粉丝评论、转发数、点赞数,再完成数据爬取的同时,进一步对数据进行分析,判断一下微博大V是否存在水军[2](僵尸粉)现象,以及其粉丝其他相同的关注点。
1.2国内外研究现状
现阶段,国内的对于新浪微博研究始于2008年,大多采用Python编写的爬虫去爬取相关数据,对于数据的分析也是着重于不同的角度去进行分析。例如,王晓兰教授从微博的传播方面着手进行研究[3],回顾2011年微博发展情况的研究,肯定了微博在新媒体的地位,同时也肯定了微博传播的研究也逐渐演变为传播学领域的一个重要课题。燕春蓉、张宇霖从社交网络用户的关系去对微博进行分析,给出了微博情感分析的几种可借鉴的模型。孙晓莹使用文献计量学方法,去分析与微博相关的文献在期刊、专利和基金等方面的分布。
国外,对于微博的研究则是从以下几个方面进行展开,比如Carter和 Simon从微博的内容进行挖掘,分析微博的同时,对于多种语言的情况,着手于如何解决语言统一识别问题;Stieglitz S则是从微博的传播与推送方面进行研究,发现了情感这一元素在于微博信息传播中发挥了巨大的作用,发现带有情感的元素信息比中性的企业信息在社会传播更快,商业在微博中要更加注意对于自己旗下的产品有情感的信息,当然,反过来也可以凭借带有情感元素的微博广告去激发消费者的购买热情[4];Oulasvirta A从用户特征与行为进行研究,提出了用户为何频繁更新微博的内容与状态,就是为了吸引其粉丝兴趣,并且这种动力的长久性取决于用户是否的得到反馈和互惠[5]。
综合来看,国外对于微博数据的研究是着重于技术以及应用方面。国内从技术方面多数采取Python[6]语言编写爬虫,缺少Java[7]编写爬虫的方法。同时也缺少鉴定微博数据是否都是真实有效的方法,以及如何对于获取数据进行过滤分析。因此本文将提供Java爬虫,通过新浪微博API爬取新浪微博数据,并给出数据过滤和分析[8]的方法。
1.3研究目的和意义
1.3.1研究目的
通过基于Java爬虫的新浪微博数据分析系统的研究与设计,对于网络爬虫的编写进行深入的理解,同时也对Springboot框架、IntelliJIDEA集成开发坏境、Mysql5.7、Navicat、Echarts等技术或者软件进行了深入的理解。
1.3.2研究意义
提供了可以高效利用新浪微博API的Java爬虫框架,使得不太熟悉Python编程语言的研究者也有了可以研究新浪微博API的方法。编写所采用的Springboot[9]全新框架更是简化应用的初始搭建和开发过程,减少开发者搭建环境的痛苦,使其更加专注于逻辑业余的编写。对于获取的大量新浪微博数据,本文也给出了数据筛选的方法,合理有效的判断微博大V是否存在僵尸粉(水军)的方法,最后也分析出粉丝还关注的其他热点博客。
1.4全文组织结构
本文共分为6章,文章结构及各章内容简介如下:

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/446.html

好棒文