微博热门话题主持人的发现与分析
摘要:随着微博应用日益快速发展, 如何从海量的微博数据信息中挖掘出用户感兴趣的热点,成为目前领域内一个富有意义的课题。当前的许多研究是关于热点话题的研究,但疏于发现热点话题的主持人。本文尝试从新浪微博热点话题榜出发,利用一定的数理统计分析找出热门话题主持人,并针对中文微博的特点对其微博内容进行挖掘分析。本文实现了对新浪微博潜在热门内容的挖掘分析,并对分析结果进行了准确性验证,为企业政府或公众,追寻热点内容提供了参考依据。关键字:微博;热门话题;话题主持人;语义分析;The Microblogging Hot Topic Discovery And Analysis of The HostStudent majoring in Information Management and Information System Chen LiangTutor Zhang LinAbstract:With increasingly rapid development of microblog application, how to excavated from vast microblog data information users interested in hot spots, is now a meaningful topic in the business. Many of the current research about the hot topic of research, but failing to find hot topics of the host. This paper tries to start from microblog hot topics list, using certain mathematical statistics analysis to find hot topics on the host, and according to the characteristics of the Chinese microblogging mining analysis on its microblog content. Realized the potential popular microblog content analysis of
*好棒文|www.hbsrm.com +Q: *351916072*
mining, and verified the accuracy of analysis results. The government or the public for the enterprise, after hot spot content provides a reference basis. 近年来国内外民众对微博的广泛使用,无疑将微博平台提升为新一代具有影响力的网络媒体。微博作为一种新的信息载体和传播途径, 使网民对各种产品以及热点话题的评论更加方便, 在网路舆情信息发起和传播中起着越来越重要的作用。随着使用用户的增多,数据量的翻倍增长,使得人们获得更多想要的信息越来越困难[]。而微博自身提供的热点话题榜也无法完全满足公众需求,但其话题的关注度受到公众的高度关注,从中可以看出,引发公众高度关注的话题,是由热门话题主持人发起的。其话题能一时引起上亿次参与,则其自身的微博内容,同样具有很高的参考价值。 微博里话题的定义:让你和陌生人有一个共同的话题可以聊。格式:#话题#。 本文研究的热门微博话题主持人(本文以下简称:热门主持人),则是从微博热门话题榜出发,因为热门话题榜提供了公众高度关注的热点话题,而不同的热点话题则是有不同的主持人发起的。 本文采集了公共高度关注的热点话题,其中每个热点话题都有一个主持人,通过分析主持人所发话题的阅读数,微博官方话题排名,以及主持人发起热门话题的次数等与话题主持人有密切相关的因素入手,用以评比出热门主持人。一、引 言微博已经成为公众信息传播的主要网络平台之一微博上的热点话题也代表了众多网民关注的热点 掌握微博热点话题对政府舆情监测与引导和企业制定营销策略都具有十分重要的意义。随着智能手机的普及和微博移动客户端的推出,现实社会中发生的事件更加简单快捷地投射到虚拟社会中,微博的媒体特征进一步加强。微博交互的便易性和微博用户的数量决定了:作为新闻传播手段,微博反应比传统媒体快速;作为舆情聚焦工具,微博热点话题的形成较传统媒体更具爆发力和破坏性[]。微博改变着舆论传播格局,重塑着舆论社会生态。微博在为用户带来新鲜及时且丰富繁杂信息的同时,也带来了严重的信息过载和信息碎片问题。而面向微博数据的话题发现技术,能够从话题粒度上重新组织微博数据,成为解决上述问题的关键技术之一。及时、准确的发现热点话题,能够帮助个人了解社会热点和重要资讯,辅助国家发现网络舆情事件和舆论趋势,在舆情监控、信息安全等领域具有重要的现实意义。因此,在全民媒体时代,及时发现微博热点话题,为管理部门提供决策参考,具有现实意义[]。热门话题由人物引出,微博官方排出的热门人物,包含了很多情感倾诉和琐事,但这些信息对于热点发现系统来说是没有价值的内容。除了能从微博热点话题榜看到公众乐见的热点话题,如果还想了解公共对哪些内容感兴趣,这需要挖掘出能引起公众高度关注的话题主持人。就好比说一个人能在话题榜引发上亿次,高频次的关注,则其发布的内容同样有可能适合公众口味,也具有很高的参考价值。要想从热门话题榜里发现热门主持人,需先了解微博热点话题榜:以#关键词#的形式发布微博时,#号内的关键词即为话题词,就是微博热点、个人兴趣、网友讨论等多种内容,经过话题主持人补充说明和加以设置的,与某个话题词有关的专题聚合页面。话题是微博中最重要的一种兴趣主页,微博用户可以进入话题发表微博参与讨论,同时话题页面也会自动收录含有该话题词的相关微博。在设置话题词时需要使用新鲜亮眼、亲切有趣的词语或短句,更能吸引网友们探讨。热门话题榜帮你发现微博上正在热议的新鲜话题[]。根据新浪微博对话题榜的官方解释:话题榜是根据小时内话题阅读人数进行排序。阅读人数是指:单位小时内阅读话题的真实有效的用户。同样话题榜的有一定的规则:1. 话题榜是小时榜,每小时更新一次。2. 单位小时内真实有效的话题阅读人数是关键指标,话题原创微博量、高影响力用户参与等其他因素会有一定加权。3. 无线PC榜单为一套数据,内容同步。当下对微博热点话题的发现和挖掘分析有很多,同样微博自行也开发出话题榜这一功能,使用户无需发现寻找热点话题。本文通过对话题榜数据的研究分析,发现有一个指标尤其值得分析和处理,那就是热点话题的发起人,即热门主持人。由于话题榜是以话题阅读人数来排行的,话题阅读量、讨论量、原创量不等于话题阅读人数。同样话题榜里主持人可以上榜多次,由此需要采集一定的数据并进行处理分析来发现当前最热门主持人。数据采集预处理数据采集分析流程本文以微博热门主持人为研究对象研究,根据其定义及特性,设计出热门主持人的发现流程,主要环节如图1所示。图1 热门主持人发现流程图 (二) 数据采集工具本文采用了一款数据采集工具八爪鱼采集器。八爪鱼可以较容易的从微博网页上采集自己所需要的数据,生成自定义的数据格式。首先要制定好所要采集的数据的采集规则,其会通过规则,进行模拟登录,之后进行数据的采集工作。数据采集难点在于数据的循环翻页采集,通过尝试最终采集出了预想的数据。如图2所示。图2 数据采集工具规则设定 (三)热门主持人发现理论依据 1.HITS算法理论 HITS算法是作用在一定范围的,比如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高[]。微博的话题榜就犹如热点话题主持人这一能引起热点话题的人物,自然是具有较高权威的网页质量。然而微博并没有归纳出热点话题主持人的榜单,所以通过热点话题榜入手,发现其热点话题主持人,并对其网页内容进行分析,具有很高的可分析性,也能掌握人们一段时间内更关注哪些内容。所以热点主持人的发现具有很好的引导性,同时具有可挖掘分析的价值。2.数理统计方法 数理统计方法是社会科学研究中一种常用的定量分析方法,该方法通过基于微博用户的基本信息数据和关注数据,利用统计学方法对其中一些参数以及参数间的相关关系进行统计分析,得出数据分布特征,如探索用户行为特征核心用户及用户间关系地域特征等[]。3.文本挖掘分析中文微博内容属于文本内容,想要对其进行分析,需要进行中文分词处理,在统计词频,语言学家Zipf(齐夫、齐普夫)通过对文章中所用词汇的词频作统计,总结得到, 将一篇文章中所有词按词频的从高到低顺序排列,依次给出等级值1、2、3,则每个词的词频f与等级值r的乘积接近常数。根据齐夫定律,可以在平面座标系中得到一条f—r的二次曲线(双曲线的一支),切分这条双曲线,可以把所有的词分高频词、中频词和低频词。高频词:传递信息能小,多为虚词。反应在文献标引上,则为专指度小的泛指词,标引能力低。中频词:传递信息能大,多为常用的术语。反应在文献标引上,则为标引时选词的最佳对象,专指度适中。低频词:传递信息能力极强。产生的原因较复杂。可能是冷僻词,也可能是新引进的概念。反应在文献标引方面,这类词专指度太大,用自由词标引时可选取,若从词表中选主题词标引,则词表中无能力包括这类词,否则词表太大[]。汉语分词算法,主要有基于字符串匹配的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的几种机械分词方法如下:正向最大(长)匹配、 逆向最大(长)匹配、最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小(短)匹配和逆向最小(短)匹配一般很少使用[]。4.社会网络分析方法 社会网络分析方法主要利用网络拓扑关系图来反映社会结构之间的关系和属性研究的对象是社会整体和社会结构,而不是个体。该分析方法更能从整体上把握微博的总体特征和用户交互情况,在以往的研究中也证实了在微博中运用社会网络分析方法是可行并且相对成熟的[]。三、数据分析(一)热门主持人发现数据分析1.原始数据原始数据内容如表1,共采集了1180条数据,时间为新浪微博热门话题榜2014年12月15日起一周的数据,采集内容有:热点话题排名--微博官方排出的热点话题热度排名,即单位时间有效的阅读人数。话题原创微博量、高影响力用户参与等其他因素会有一定加权,此处的加权是新浪微博热门话题榜排名的依据,也是其官方解释,具体如何加权其未公开,也不属于本文研究范围,只作现成依据。话题名--话题名称。标签--话题属于哪一类。阅读数--单纯的话题阅读数与阅读人数有别。话题主持人--热点话题的发起人。 表1 话题榜排名采集表排名话题名标签阅读数主持人228#2014我在孤独星球#其他16156.1万坐下不起来700#我若在你心上#明星388.4万作者师小札1165#tfboys滚出娱乐圈#明星1113.9万作家花开475#郭芙陪你过新年#其他59万醉卧599#新神雕侠侣#电视剧20721.7万最自恋的平方442#FF14#创意征集28193.5万最终幻想14514#最终幻想14#科技24738.3万最终幻想14 2.数据加工数据筛选鉴别:此次共采集了1180条数据,去除无话题主持人名称为空的数据行共得到979条数据。在去除话题排名里没有“万”字的数据可得到816行数据。影响话题主持人的排行主要因素有:话题榜里的话题排名,阅读数以及主持人当下在话题榜出现的次数。首先出话题排名来说,它应当属于最高的影响因子,所以可先从其字段下手,筛选一定的数据。部分结果如表2所示,此次共采集了排名前1180名的话题,排名越靠前顾名思义越容易的到关注,在微博话题榜网页界面,每页有15条话题,通过观察也发现在首页排名前15名的话题全都通过首轮数据的筛选,也证实了筛选的可行性。于是决定筛选出排名前1000名,共777行数据。至此数据粗加工第一项数据筛选已基本完成。表2 话题主持人粗加工数据表排名阅读数(万)话题主持人1197173.3新浪娱乐2152935.2粉丝群3851041.4奔跑吧兄弟4221987让红包飞5655019.5一年级官方微博683380.6CCTV1梦想星搭档7112619.7电影微爱之渐入佳境81810512天1夜中国版9184557.4智取威虎山3D1015435.4人民日报119479.7咸贵人1214421.2新浪娱乐13215730.3明星到我家1412724.1人民日报1569228.5爱奇艺奇葩说 3.定性分析在量化分析前做一定的定性分析可能使分析更加精确和有效率[]。首先明确分析的最终目的:找到最热门话题的主持人。通过对微博话题榜的研究,采集了排名、话题名、标签、阅读数、主持人等字段,目的:找到最热门的主持人。影响主持人排名的相关属性有:所发话题的排名,话题阅读数,以及该表内主持人出现的次数,能做到:分析之间的关系,看能否找到他们间的相关度,通过加权排序能找到最热门的主持人。由于每个数据段数据量的指标有差异,所以要做进一步的数据转换,使其可以能实现相互组合处理。4.热门主持人统计分析通过定性分析所采集的数据,针对热门主持人的影响因素,得出因综合考虑排名、阅读数、主持人主持话题次数等影响热门主持人的字段。通过处理数据是各个影响因素能合理相加。即:热门主持人总得分=排名得分+阅读数得分+主持人出现次数得分。其中每项的得分情况将会根据每个字段的影响力给予相应的分析处理。对于话题排名字段,属最具影响因素,又由于排名数据排名越高,其量值越小,同样一般人们总会关注与前几页数据可能较少看最末几页,于是经过分析采用倒序排列,这样排名越靠前的,量值就越大,符合话题榜的要求,最热门的几个话题也相应得到较高的分数。运用excel自带的Visual Basic进行处理,代码如下:Sub daopai() Rem 排名倒排 Selection.AutoFilter Range("A1").Activate Selection.Sort Key1:=Range("A1"), Order1:=xlDescending, Order2:=xlDescending, Order3:=xlDescending, Header:=xlGuess, OrderCustom:=1, MatchCase:=False, Orientation:=xlSortColumns, SortMethod:=xlPinYin, DataOption1:=xlSortNormal, DataOption2:=xlSortNormal, DataOption3:=xlSortNormalEnd Sub Rem 排名数据处理Sub cc1() Selection.FormulaR1C1 = "1000" Range("F3"). Select Selection.Copy Selection.PasteSpecial Paste:=xlPasteAll, Operation:=xlPasteSpecialOperationDivide, SkipBlanks:=False, Transpose:=FalseEnd Sub阅读数的处理:话题榜是以话题阅读人数来排行的,话题阅读量、讨论量、原创量不等于话题阅读人数。所以我们更关注阅读人数,因为其更有效,更能反映热门主持人所发话题的吸引度,而阅读人数与排名有关,所以阅读量的比重所占较小。而阅读数都是以万为单位计数,为了能使其能相互运算,遂处理成0-1之间的数值。通过下两张表对比发现阅读数数据量值差距较大且两级分化教严重,于是决定采用二次中间值的处理方法,综合考虑对于高于平均值32413.355万的先给予0.1,高于平均值293067.565的再给予0.1即0.2,以次类推。部分结果如表3,表4所示。表3 话题主持人影响因素数据处理表(处理前) 排名得分阅读数(万)话题主持人0.7962178868.1爸爸去哪儿0.989851041.4奔跑吧兄弟0.977655019.5一年级官方微博0.691552769.4April12th_0.798518045.8Lindzon0.722517390.4带着微博去旅行0.547497895.9你函数表4 话题主持人影响因素数据处理表(处理后)排名得分阅读得分话题主持人0.7960.2爸爸去哪儿0.9890.2奔跑吧兄弟0.9770.2一年级官方微博0.6910.2April12th_0.7980.2Lindzon0.7220.2带着微博去旅行0.5470.2你函数0.6750.2机智小清新baek0.8660.2电视剧神雕侠侣0.4740.2电视剧风中奇缘0.0830.2中国梦之声主持人出现的次数的处理,主持人出现的次数越多表示其越活跃,从而表示其话题易引起人们的关注,所以其影响力仅次于话题排行,所以其每多出现一次叠加0.1,而其话题排行则取其平均值,通过数据转换得到最终数据。(二)微博内容数据处理:通过数据采集,采集关于央视新闻自2014年3月15号至今的热点数据。部分数据如表5所示:表5中文微博内容搜集例表2014-12-29 13:52 【#神秘沉船南海I号# 即将显露真颜】1987年首次发现,用20年打捞出水的“南海I号”神秘面纱今天揭开!这艘迄今船体最大、保存最完整的宋代远洋贸易船会给我们带来怎样的惊喜?敬请关注14:00央视新闻频道直播《宋船迷踪:“南海I号”考古大发现》(央视记者艾达 张昕) 2014-12-29 12:28 【#神秘沉船南海I号#宝物揭秘 猜题赢大奖!】这艘神秘沉船内的各种神秘金器、瓷器等文物将被大规模提取,央视新闻频道及客户端将在今天14点同步直播。它是一艘什么时代的船?沉船上的主要货物是什么?快来转发答题,惊喜大奖等你拿!参与地址:http://t.cn/RZAbp2I 2014-12-28 22:17 【新闻联播:#神秘沉船南海I号#宝藏将揭开神秘面纱】作为海上丝绸之路重要物证,“南海Ⅰ号”是目前发现的最完整宋代远洋贸易船。2015年起“南海Ⅰ号”船内各种神秘金器、瓷器等文物将被大规模提取,预计最终总数在6万到8万件!央视新闻频道及客户端将在明天14点同步直播。http://t.cn/RZwKf5R 2014-12-27 20:27 #病死猪去哪儿了#【农业部督导组赴江西调查病死猪流入市场问题】针对央视新闻报道江西高安大量病死猪流入市场的问题,农业部高度重视,已派出督导组与江西省农业厅等相关部门开展现场调查,查处违法违规行为。http://t.cn/RZzjAme 2014-12-26 15:10 【神秘宋船“南海I号"即将露真颜】"南海I号"这艘宋代沉船,1987年被发现,用了20年打捞出水,在博物馆沉睡7年后神秘面纱终要揭开。这艘迄今为止船体最大、保存最完整的宋代远洋贸易船,会藏有什么样的宝物?请关注12月29日14:00央视新闻频道《宋船迷踪:"南海I号"考古大发现》(央视记者艾达 张昕) 2014-12-23 07:23 【感谢有你!“央视新闻”新媒体粉丝破亿】开通两年,由官方微博、微信、客户端组成的“央视新闻”新媒体,粉丝总数在12月18日破1亿!传统媒体和新媒体融合我们已在路上;坚持权威性和公信力我们将做得更好更强!感谢所有粉丝小伙伴,正因你的存在,“央视新闻”才足够精彩!http://t.cn/RzDzCsD 采集完成后进行分词处理:本次采用武汉大学编写的ROST分词软件,部分分词结果如表6:表6 中文微博内容分词表1 月 8 日 21: 55 【 2014 收视 成绩单 : CCTV- 1 连续 56 年 全国 第一 ! CCTV- 新闻 斩 获 第二 ! 】 2014 年 , 央视 收视 成绩 斐然 。 在 34 个 中心 城市 收视 前 10 名 频道 中 , 央视 占 6 席 。 CCTV- 1 连续 56 年 保持 全国 第一 ! CCTV- 新闻 跃居 第二 ! 微 博 、 微 信 、 APP 等 " 央视 新闻 " 新 媒体 快速 崛起 , 已 成为 一 支 强劲 集团军 。 亲 , 给 个 好评 吗 ? 1 月 6 日 21: 02 【 # 叫醒 耳朵 一起 唱 # ! 】 @ 央视 新闻 @ CCTV1 梦想 星 搭档 发起 的 爱心 传唱 活动 正 等 你来 ! 参与者 唱 首 儿歌 , 点名 三个 人 接力 唱 儿歌 , 并 上传 视频 至 社交 媒体 。 被 点名 者 得 在 24 小时 内 完成 挑战 , 否则 向 听 障 儿童 捐 100 元 。 TFBOYS、 凤凰 传奇 、 张杰 、 刘亦菲 、 姚晨 邓超 、 鹿 晗 等 已 先后 接 招 , 谁 会 是 下一 个 ? 转发 传递 随后进行词频统计:去除停用词与无意义词:就业 85频道 78 世界杯 64 参与 60 新增 52私信 41网友 40 获得 37 职位 37 简历 36 官方 36直播 35招聘 30 媒体 30 评选 30 校园 29 投递 28岗位 28有机 25 老人 23 微观世界 23投票 22 中国 22为了便于查看形成标签云如图3所示:图3微博高频词汇标签云 如图3清楚看出,出现较高词频的词汇。 (三)研究对象研究对象:热点话题主持人,通过公众对热点话题的高关注度,新浪微博对热点话题榜的排行,热点话题的阅读数都在上亿次,可谓都是热点话题,然而发起此热点话题的人,新浪微博没有给出具体的排名,其不同于热门人物,热门人物多半是拥有大量的粉丝,其微博内容可能在某个时间点十分受关注,其他某些内容可以太过个人化,不符合公众整体的关注倾向。对热点话题的研究分析,更能反映公众一段时间的阅读喜好倾向,更具有公众性。同时通过对发现的热门主持人的微博内容进行分析可论证,其属于符合公众需求热门主持人。(四)结果呈现与分析1.热门主持人发现分析 通过数据的转换加工,重新整合后得到一个关于最热门主持人的相关属性表,部分数据如表7,共得到667行数据。主持人阅读次数得分排名得分主持人次数得分总得分央视新闻0.50.830.82.13人民日报0.450.7350.92.085东方卫视番茄台0.350.8460.71.896新浪娱乐0.50.6880.61.788Lindzon0.70.580.51.78理財格格-Elva0.50.630.31.43一年级官方微博0.20.76850.41.3685欢乐动漫频道0.40.2450.71.345让红包飞0.250.890.21.34粉丝群0.20.990.11.29表7热门主持人排行处理结果随后对所有处理数据形成统计图,如图4所示: 图4 热门主持人得分排行条形统计图由图4可得排名前60位的热门主持人得分都在一以上,同时属于第一阶梯,成曲线增长,60以下的人数呈线性增长。2.热门主持人微博内容分析光进行中文分词,只能看出个别高频词汇,能大致知道公共关注的热点词汇,比如去年2014年的最热门的世界杯,就业,频道等。但可能单个词无法表现语义。所以通过分析词频,词间关系,相互出现的频率,构建词的网络语义分析。社会网络分析方法主要利用网络拓扑关系图来反映社会结构之间的关系和属性 研究的对象是社会整体和社会结构,而不是个体该分析方法更能从整体上把握微博的总体特征和用户交互情况,在以往的研究中也证实了在微博中运用社会网络分析方法是可行并且相对成熟的[]。本文通过对采集来的中文微博文本内容分词,提取高频词,过滤无意义词,提取行特征,构建矩阵,进行了语义网络分析:可以看出某些单个无意义的高频词通过网络关系连接,通过网络拓扑关系图的可视化展示,使其变得有意义。如投递为何高频词出现,因为他和就业,简历有相关性,再者频道的高频词词汇源于直播。 通过高频词的选定,计算共词频率,得到共词矩阵在共词分析中,为方便词对共现频率的运算。设计共词矩阵,对于N个高频词的共词分析中,便形成一个N-N的共词矩阵[]。部分共词矩阵如表8所示:表8微博内容高频词共词矩阵部分列表央视新闻今日就业频道世界杯参与央视2227035672535新闻2227035672535今日7070252417就业353525频道676724世界杯25251717参与353517随后进行社会网络语义分析形成词间的关系图如图5所示:图5微博高频词汇语义网络分析效果验证 取前二十进行图标对比,如图6所示,排名越靠前的综合属性都好,排名,阅读数以及主持人次数的有较高的得分,而后面一些只是某个指标较高,更能看出热点主持人的主属性排名占有最高的权重,当然热点主持人最终得分的排名的分并不是最高的,由此数据具有较好的标注区分,同时也反映的数据的可靠与意义。图6前二十名热门主持人对比图最热点的主持人为“央视新闻”,“央视新闻”微博是中央电视台新闻中心官方微博,是央视重大新闻、突发事件、重点报道的首发平台。其粉丝数:27777878,微博:45588,属于热门微博发布者,也可见公众在微博里跟关注与社会问题,同样前几名也都在社会,电影电视,娱乐之列。符合人们的关注倾向。这些热门主持都拥有大量粉丝,且较活跃每天都会更新微博内容,其具有一定的关注度和被转发频次。同样通过返回查看央视新闻微博主页发现,其关于世界杯,就业的报道确实属于公共高度关注的热点。结语本文通过由新浪微博热点话题出发,找寻能引起公共高度关注的热点话题发起人,即话题主持人。如果主持人的话题能高度引起关注,则其个体内容同样具有很高的关注度,或者说具有一定的潜在价值。通过数据搜集分析,发现了热门主持人,之后在对其内容进行挖掘分析,得出其内容里的高频词属于公众共同关注的热点词汇,由此可以挖掘出一些潜在的热点词汇,用以确定或分析出更多公众共同关注的热点。新浪微博可以以此作为一个依据,可以提供给用户更个性化的内容。热门主持人的提出,可以引起公众新的微博阅读习惯,能使微博产生更多样化的阅读方式。本文通过定性分析现有的热点内容,发现数据里的潜在分析点,再通过定量数据采集分析确定了自己的发现:热点话题主持人的微博内容具有很高的公众关注度,对于公共关注的热点问题有很高的参考价值。参考文献:
目录
摘要 2
关键字 2
Abstract 2
Key words 2
一、引 言 3
二、 数据采集预处理 4
(一) 数据采集分析流程 4
(二) 数据采集工具 5
(三)热门主持人发现理论依据 5
1.HITS算法理论 5
2.数理统计方法 6
3.文本挖掘分析 6
4.社会网络分析方法 6
三、数据分析 6
(一)热门主持人发现数据分析 6
1.原始数据 6
2.数据加工 7
3.定性分析 8
4.热门主持人统计分析 8
(二)微博内容数据处理 10
(三)研究对象 12
(四)结果呈现与分析 12
1.热门主持人发现分析 12
2.热门主持人微博内容分析 13
四、 效果验证 14
五、 结语 15
参考文献 15
微博热门话题主持人的发现与分析
信息管理与信息系统 陈亮
引言
*好棒文|www.hbsrm.com +Q: *351916072*
mining, and verified the accuracy of analysis results. The government or the public for the enterprise, after hot spot content provides a reference basis. 近年来国内外民众对微博的广泛使用,无疑将微博平台提升为新一代具有影响力的网络媒体。微博作为一种新的信息载体和传播途径, 使网民对各种产品以及热点话题的评论更加方便, 在网路舆情信息发起和传播中起着越来越重要的作用。随着使用用户的增多,数据量的翻倍增长,使得人们获得更多想要的信息越来越困难[]。而微博自身提供的热点话题榜也无法完全满足公众需求,但其话题的关注度受到公众的高度关注,从中可以看出,引发公众高度关注的话题,是由热门话题主持人发起的。其话题能一时引起上亿次参与,则其自身的微博内容,同样具有很高的参考价值。 微博里话题的定义:让你和陌生人有一个共同的话题可以聊。格式:#话题#。 本文研究的热门微博话题主持人(本文以下简称:热门主持人),则是从微博热门话题榜出发,因为热门话题榜提供了公众高度关注的热点话题,而不同的热点话题则是有不同的主持人发起的。 本文采集了公共高度关注的热点话题,其中每个热点话题都有一个主持人,通过分析主持人所发话题的阅读数,微博官方话题排名,以及主持人发起热门话题的次数等与话题主持人有密切相关的因素入手,用以评比出热门主持人。一、引 言微博已经成为公众信息传播的主要网络平台之一微博上的热点话题也代表了众多网民关注的热点 掌握微博热点话题对政府舆情监测与引导和企业制定营销策略都具有十分重要的意义。随着智能手机的普及和微博移动客户端的推出,现实社会中发生的事件更加简单快捷地投射到虚拟社会中,微博的媒体特征进一步加强。微博交互的便易性和微博用户的数量决定了:作为新闻传播手段,微博反应比传统媒体快速;作为舆情聚焦工具,微博热点话题的形成较传统媒体更具爆发力和破坏性[]。微博改变着舆论传播格局,重塑着舆论社会生态。微博在为用户带来新鲜及时且丰富繁杂信息的同时,也带来了严重的信息过载和信息碎片问题。而面向微博数据的话题发现技术,能够从话题粒度上重新组织微博数据,成为解决上述问题的关键技术之一。及时、准确的发现热点话题,能够帮助个人了解社会热点和重要资讯,辅助国家发现网络舆情事件和舆论趋势,在舆情监控、信息安全等领域具有重要的现实意义。因此,在全民媒体时代,及时发现微博热点话题,为管理部门提供决策参考,具有现实意义[]。热门话题由人物引出,微博官方排出的热门人物,包含了很多情感倾诉和琐事,但这些信息对于热点发现系统来说是没有价值的内容。除了能从微博热点话题榜看到公众乐见的热点话题,如果还想了解公共对哪些内容感兴趣,这需要挖掘出能引起公众高度关注的话题主持人。就好比说一个人能在话题榜引发上亿次,高频次的关注,则其发布的内容同样有可能适合公众口味,也具有很高的参考价值。要想从热门话题榜里发现热门主持人,需先了解微博热点话题榜:以#关键词#的形式发布微博时,#号内的关键词即为话题词,就是微博热点、个人兴趣、网友讨论等多种内容,经过话题主持人补充说明和加以设置的,与某个话题词有关的专题聚合页面。话题是微博中最重要的一种兴趣主页,微博用户可以进入话题发表微博参与讨论,同时话题页面也会自动收录含有该话题词的相关微博。在设置话题词时需要使用新鲜亮眼、亲切有趣的词语或短句,更能吸引网友们探讨。热门话题榜帮你发现微博上正在热议的新鲜话题[]。根据新浪微博对话题榜的官方解释:话题榜是根据小时内话题阅读人数进行排序。阅读人数是指:单位小时内阅读话题的真实有效的用户。同样话题榜的有一定的规则:1. 话题榜是小时榜,每小时更新一次。2. 单位小时内真实有效的话题阅读人数是关键指标,话题原创微博量、高影响力用户参与等其他因素会有一定加权。3. 无线PC榜单为一套数据,内容同步。当下对微博热点话题的发现和挖掘分析有很多,同样微博自行也开发出话题榜这一功能,使用户无需发现寻找热点话题。本文通过对话题榜数据的研究分析,发现有一个指标尤其值得分析和处理,那就是热点话题的发起人,即热门主持人。由于话题榜是以话题阅读人数来排行的,话题阅读量、讨论量、原创量不等于话题阅读人数。同样话题榜里主持人可以上榜多次,由此需要采集一定的数据并进行处理分析来发现当前最热门主持人。数据采集预处理数据采集分析流程本文以微博热门主持人为研究对象研究,根据其定义及特性,设计出热门主持人的发现流程,主要环节如图1所示。图1 热门主持人发现流程图 (二) 数据采集工具本文采用了一款数据采集工具八爪鱼采集器。八爪鱼可以较容易的从微博网页上采集自己所需要的数据,生成自定义的数据格式。首先要制定好所要采集的数据的采集规则,其会通过规则,进行模拟登录,之后进行数据的采集工作。数据采集难点在于数据的循环翻页采集,通过尝试最终采集出了预想的数据。如图2所示。图2 数据采集工具规则设定 (三)热门主持人发现理论依据 1.HITS算法理论 HITS算法是作用在一定范围的,比如一个以程序开发为主题的网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高[]。微博的话题榜就犹如热点话题主持人这一能引起热点话题的人物,自然是具有较高权威的网页质量。然而微博并没有归纳出热点话题主持人的榜单,所以通过热点话题榜入手,发现其热点话题主持人,并对其网页内容进行分析,具有很高的可分析性,也能掌握人们一段时间内更关注哪些内容。所以热点主持人的发现具有很好的引导性,同时具有可挖掘分析的价值。2.数理统计方法 数理统计方法是社会科学研究中一种常用的定量分析方法,该方法通过基于微博用户的基本信息数据和关注数据,利用统计学方法对其中一些参数以及参数间的相关关系进行统计分析,得出数据分布特征,如探索用户行为特征核心用户及用户间关系地域特征等[]。3.文本挖掘分析中文微博内容属于文本内容,想要对其进行分析,需要进行中文分词处理,在统计词频,语言学家Zipf(齐夫、齐普夫)通过对文章中所用词汇的词频作统计,总结得到, 将一篇文章中所有词按词频的从高到低顺序排列,依次给出等级值1、2、3,则每个词的词频f与等级值r的乘积接近常数。根据齐夫定律,可以在平面座标系中得到一条f—r的二次曲线(双曲线的一支),切分这条双曲线,可以把所有的词分高频词、中频词和低频词。高频词:传递信息能小,多为虚词。反应在文献标引上,则为专指度小的泛指词,标引能力低。中频词:传递信息能大,多为常用的术语。反应在文献标引上,则为标引时选词的最佳对象,专指度适中。低频词:传递信息能力极强。产生的原因较复杂。可能是冷僻词,也可能是新引进的概念。反应在文献标引方面,这类词专指度太大,用自由词标引时可选取,若从词表中选主题词标引,则词表中无能力包括这类词,否则词表太大[]。汉语分词算法,主要有基于字符串匹配的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的几种机械分词方法如下:正向最大(长)匹配、 逆向最大(长)匹配、最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小(短)匹配和逆向最小(短)匹配一般很少使用[]。4.社会网络分析方法 社会网络分析方法主要利用网络拓扑关系图来反映社会结构之间的关系和属性研究的对象是社会整体和社会结构,而不是个体。该分析方法更能从整体上把握微博的总体特征和用户交互情况,在以往的研究中也证实了在微博中运用社会网络分析方法是可行并且相对成熟的[]。三、数据分析(一)热门主持人发现数据分析1.原始数据原始数据内容如表1,共采集了1180条数据,时间为新浪微博热门话题榜2014年12月15日起一周的数据,采集内容有:热点话题排名--微博官方排出的热点话题热度排名,即单位时间有效的阅读人数。话题原创微博量、高影响力用户参与等其他因素会有一定加权,此处的加权是新浪微博热门话题榜排名的依据,也是其官方解释,具体如何加权其未公开,也不属于本文研究范围,只作现成依据。话题名--话题名称。标签--话题属于哪一类。阅读数--单纯的话题阅读数与阅读人数有别。话题主持人--热点话题的发起人。 表1 话题榜排名采集表排名话题名标签阅读数主持人228#2014我在孤独星球#其他16156.1万坐下不起来700#我若在你心上#明星388.4万作者师小札1165#tfboys滚出娱乐圈#明星1113.9万作家花开475#郭芙陪你过新年#其他59万醉卧599#新神雕侠侣#电视剧20721.7万最自恋的平方442#FF14#创意征集28193.5万最终幻想14514#最终幻想14#科技24738.3万最终幻想14 2.数据加工数据筛选鉴别:此次共采集了1180条数据,去除无话题主持人名称为空的数据行共得到979条数据。在去除话题排名里没有“万”字的数据可得到816行数据。影响话题主持人的排行主要因素有:话题榜里的话题排名,阅读数以及主持人当下在话题榜出现的次数。首先出话题排名来说,它应当属于最高的影响因子,所以可先从其字段下手,筛选一定的数据。部分结果如表2所示,此次共采集了排名前1180名的话题,排名越靠前顾名思义越容易的到关注,在微博话题榜网页界面,每页有15条话题,通过观察也发现在首页排名前15名的话题全都通过首轮数据的筛选,也证实了筛选的可行性。于是决定筛选出排名前1000名,共777行数据。至此数据粗加工第一项数据筛选已基本完成。表2 话题主持人粗加工数据表排名阅读数(万)话题主持人1197173.3新浪娱乐2152935.2粉丝群3851041.4奔跑吧兄弟4221987让红包飞5655019.5一年级官方微博683380.6CCTV1梦想星搭档7112619.7电影微爱之渐入佳境81810512天1夜中国版9184557.4智取威虎山3D1015435.4人民日报119479.7咸贵人1214421.2新浪娱乐13215730.3明星到我家1412724.1人民日报1569228.5爱奇艺奇葩说 3.定性分析在量化分析前做一定的定性分析可能使分析更加精确和有效率[]。首先明确分析的最终目的:找到最热门话题的主持人。通过对微博话题榜的研究,采集了排名、话题名、标签、阅读数、主持人等字段,目的:找到最热门的主持人。影响主持人排名的相关属性有:所发话题的排名,话题阅读数,以及该表内主持人出现的次数,能做到:分析之间的关系,看能否找到他们间的相关度,通过加权排序能找到最热门的主持人。由于每个数据段数据量的指标有差异,所以要做进一步的数据转换,使其可以能实现相互组合处理。4.热门主持人统计分析通过定性分析所采集的数据,针对热门主持人的影响因素,得出因综合考虑排名、阅读数、主持人主持话题次数等影响热门主持人的字段。通过处理数据是各个影响因素能合理相加。即:热门主持人总得分=排名得分+阅读数得分+主持人出现次数得分。其中每项的得分情况将会根据每个字段的影响力给予相应的分析处理。对于话题排名字段,属最具影响因素,又由于排名数据排名越高,其量值越小,同样一般人们总会关注与前几页数据可能较少看最末几页,于是经过分析采用倒序排列,这样排名越靠前的,量值就越大,符合话题榜的要求,最热门的几个话题也相应得到较高的分数。运用excel自带的Visual Basic进行处理,代码如下:Sub daopai() Rem 排名倒排 Selection.AutoFilter Range("A1").Activate Selection.Sort Key1:=Range("A1"), Order1:=xlDescending, Order2:=xlDescending, Order3:=xlDescending, Header:=xlGuess, OrderCustom:=1, MatchCase:=False, Orientation:=xlSortColumns, SortMethod:=xlPinYin, DataOption1:=xlSortNormal, DataOption2:=xlSortNormal, DataOption3:=xlSortNormalEnd Sub Rem 排名数据处理Sub cc1() Selection.FormulaR1C1 = "1000" Range("F3"). Select Selection.Copy Selection.PasteSpecial Paste:=xlPasteAll, Operation:=xlPasteSpecialOperationDivide, SkipBlanks:=False, Transpose:=FalseEnd Sub阅读数的处理:话题榜是以话题阅读人数来排行的,话题阅读量、讨论量、原创量不等于话题阅读人数。所以我们更关注阅读人数,因为其更有效,更能反映热门主持人所发话题的吸引度,而阅读人数与排名有关,所以阅读量的比重所占较小。而阅读数都是以万为单位计数,为了能使其能相互运算,遂处理成0-1之间的数值。通过下两张表对比发现阅读数数据量值差距较大且两级分化教严重,于是决定采用二次中间值的处理方法,综合考虑对于高于平均值32413.355万的先给予0.1,高于平均值293067.565的再给予0.1即0.2,以次类推。部分结果如表3,表4所示。表3 话题主持人影响因素数据处理表(处理前) 排名得分阅读数(万)话题主持人0.7962178868.1爸爸去哪儿0.989851041.4奔跑吧兄弟0.977655019.5一年级官方微博0.691552769.4April12th_0.798518045.8Lindzon0.722517390.4带着微博去旅行0.547497895.9你函数表4 话题主持人影响因素数据处理表(处理后)排名得分阅读得分话题主持人0.7960.2爸爸去哪儿0.9890.2奔跑吧兄弟0.9770.2一年级官方微博0.6910.2April12th_0.7980.2Lindzon0.7220.2带着微博去旅行0.5470.2你函数0.6750.2机智小清新baek0.8660.2电视剧神雕侠侣0.4740.2电视剧风中奇缘0.0830.2中国梦之声主持人出现的次数的处理,主持人出现的次数越多表示其越活跃,从而表示其话题易引起人们的关注,所以其影响力仅次于话题排行,所以其每多出现一次叠加0.1,而其话题排行则取其平均值,通过数据转换得到最终数据。(二)微博内容数据处理:通过数据采集,采集关于央视新闻自2014年3月15号至今的热点数据。部分数据如表5所示:表5中文微博内容搜集例表2014-12-29 13:52 【#神秘沉船南海I号# 即将显露真颜】1987年首次发现,用20年打捞出水的“南海I号”神秘面纱今天揭开!这艘迄今船体最大、保存最完整的宋代远洋贸易船会给我们带来怎样的惊喜?敬请关注14:00央视新闻频道直播《宋船迷踪:“南海I号”考古大发现》(央视记者艾达 张昕) 2014-12-29 12:28 【#神秘沉船南海I号#宝物揭秘 猜题赢大奖!】这艘神秘沉船内的各种神秘金器、瓷器等文物将被大规模提取,央视新闻频道及客户端将在今天14点同步直播。它是一艘什么时代的船?沉船上的主要货物是什么?快来转发答题,惊喜大奖等你拿!参与地址:http://t.cn/RZAbp2I 2014-12-28 22:17 【新闻联播:#神秘沉船南海I号#宝藏将揭开神秘面纱】作为海上丝绸之路重要物证,“南海Ⅰ号”是目前发现的最完整宋代远洋贸易船。2015年起“南海Ⅰ号”船内各种神秘金器、瓷器等文物将被大规模提取,预计最终总数在6万到8万件!央视新闻频道及客户端将在明天14点同步直播。http://t.cn/RZwKf5R 2014-12-27 20:27 #病死猪去哪儿了#【农业部督导组赴江西调查病死猪流入市场问题】针对央视新闻报道江西高安大量病死猪流入市场的问题,农业部高度重视,已派出督导组与江西省农业厅等相关部门开展现场调查,查处违法违规行为。http://t.cn/RZzjAme 2014-12-26 15:10 【神秘宋船“南海I号"即将露真颜】"南海I号"这艘宋代沉船,1987年被发现,用了20年打捞出水,在博物馆沉睡7年后神秘面纱终要揭开。这艘迄今为止船体最大、保存最完整的宋代远洋贸易船,会藏有什么样的宝物?请关注12月29日14:00央视新闻频道《宋船迷踪:"南海I号"考古大发现》(央视记者艾达 张昕) 2014-12-23 07:23 【感谢有你!“央视新闻”新媒体粉丝破亿】开通两年,由官方微博、微信、客户端组成的“央视新闻”新媒体,粉丝总数在12月18日破1亿!传统媒体和新媒体融合我们已在路上;坚持权威性和公信力我们将做得更好更强!感谢所有粉丝小伙伴,正因你的存在,“央视新闻”才足够精彩!http://t.cn/RzDzCsD 采集完成后进行分词处理:本次采用武汉大学编写的ROST分词软件,部分分词结果如表6:表6 中文微博内容分词表1 月 8 日 21: 55 【 2014 收视 成绩单 : CCTV- 1 连续 56 年 全国 第一 ! CCTV- 新闻 斩 获 第二 ! 】 2014 年 , 央视 收视 成绩 斐然 。 在 34 个 中心 城市 收视 前 10 名 频道 中 , 央视 占 6 席 。 CCTV- 1 连续 56 年 保持 全国 第一 ! CCTV- 新闻 跃居 第二 ! 微 博 、 微 信 、 APP 等 " 央视 新闻 " 新 媒体 快速 崛起 , 已 成为 一 支 强劲 集团军 。 亲 , 给 个 好评 吗 ? 1 月 6 日 21: 02 【 # 叫醒 耳朵 一起 唱 # ! 】 @ 央视 新闻 @ CCTV1 梦想 星 搭档 发起 的 爱心 传唱 活动 正 等 你来 ! 参与者 唱 首 儿歌 , 点名 三个 人 接力 唱 儿歌 , 并 上传 视频 至 社交 媒体 。 被 点名 者 得 在 24 小时 内 完成 挑战 , 否则 向 听 障 儿童 捐 100 元 。 TFBOYS、 凤凰 传奇 、 张杰 、 刘亦菲 、 姚晨 邓超 、 鹿 晗 等 已 先后 接 招 , 谁 会 是 下一 个 ? 转发 传递 随后进行词频统计:去除停用词与无意义词:就业 85频道 78 世界杯 64 参与 60 新增 52私信 41网友 40 获得 37 职位 37 简历 36 官方 36直播 35招聘 30 媒体 30 评选 30 校园 29 投递 28岗位 28有机 25 老人 23 微观世界 23投票 22 中国 22为了便于查看形成标签云如图3所示:图3微博高频词汇标签云 如图3清楚看出,出现较高词频的词汇。 (三)研究对象研究对象:热点话题主持人,通过公众对热点话题的高关注度,新浪微博对热点话题榜的排行,热点话题的阅读数都在上亿次,可谓都是热点话题,然而发起此热点话题的人,新浪微博没有给出具体的排名,其不同于热门人物,热门人物多半是拥有大量的粉丝,其微博内容可能在某个时间点十分受关注,其他某些内容可以太过个人化,不符合公众整体的关注倾向。对热点话题的研究分析,更能反映公众一段时间的阅读喜好倾向,更具有公众性。同时通过对发现的热门主持人的微博内容进行分析可论证,其属于符合公众需求热门主持人。(四)结果呈现与分析1.热门主持人发现分析 通过数据的转换加工,重新整合后得到一个关于最热门主持人的相关属性表,部分数据如表7,共得到667行数据。主持人阅读次数得分排名得分主持人次数得分总得分央视新闻0.50.830.82.13人民日报0.450.7350.92.085东方卫视番茄台0.350.8460.71.896新浪娱乐0.50.6880.61.788Lindzon0.70.580.51.78理財格格-Elva0.50.630.31.43一年级官方微博0.20.76850.41.3685欢乐动漫频道0.40.2450.71.345让红包飞0.250.890.21.34粉丝群0.20.990.11.29表7热门主持人排行处理结果随后对所有处理数据形成统计图,如图4所示: 图4 热门主持人得分排行条形统计图由图4可得排名前60位的热门主持人得分都在一以上,同时属于第一阶梯,成曲线增长,60以下的人数呈线性增长。2.热门主持人微博内容分析光进行中文分词,只能看出个别高频词汇,能大致知道公共关注的热点词汇,比如去年2014年的最热门的世界杯,就业,频道等。但可能单个词无法表现语义。所以通过分析词频,词间关系,相互出现的频率,构建词的网络语义分析。社会网络分析方法主要利用网络拓扑关系图来反映社会结构之间的关系和属性 研究的对象是社会整体和社会结构,而不是个体该分析方法更能从整体上把握微博的总体特征和用户交互情况,在以往的研究中也证实了在微博中运用社会网络分析方法是可行并且相对成熟的[]。本文通过对采集来的中文微博文本内容分词,提取高频词,过滤无意义词,提取行特征,构建矩阵,进行了语义网络分析:可以看出某些单个无意义的高频词通过网络关系连接,通过网络拓扑关系图的可视化展示,使其变得有意义。如投递为何高频词出现,因为他和就业,简历有相关性,再者频道的高频词词汇源于直播。 通过高频词的选定,计算共词频率,得到共词矩阵在共词分析中,为方便词对共现频率的运算。设计共词矩阵,对于N个高频词的共词分析中,便形成一个N-N的共词矩阵[]。部分共词矩阵如表8所示:表8微博内容高频词共词矩阵部分列表央视新闻今日就业频道世界杯参与央视2227035672535新闻2227035672535今日7070252417就业353525频道676724世界杯25251717参与353517随后进行社会网络语义分析形成词间的关系图如图5所示:图5微博高频词汇语义网络分析效果验证 取前二十进行图标对比,如图6所示,排名越靠前的综合属性都好,排名,阅读数以及主持人次数的有较高的得分,而后面一些只是某个指标较高,更能看出热点主持人的主属性排名占有最高的权重,当然热点主持人最终得分的排名的分并不是最高的,由此数据具有较好的标注区分,同时也反映的数据的可靠与意义。图6前二十名热门主持人对比图最热点的主持人为“央视新闻”,“央视新闻”微博是中央电视台新闻中心官方微博,是央视重大新闻、突发事件、重点报道的首发平台。其粉丝数:27777878,微博:45588,属于热门微博发布者,也可见公众在微博里跟关注与社会问题,同样前几名也都在社会,电影电视,娱乐之列。符合人们的关注倾向。这些热门主持都拥有大量粉丝,且较活跃每天都会更新微博内容,其具有一定的关注度和被转发频次。同样通过返回查看央视新闻微博主页发现,其关于世界杯,就业的报道确实属于公共高度关注的热点。结语本文通过由新浪微博热点话题出发,找寻能引起公共高度关注的热点话题发起人,即话题主持人。如果主持人的话题能高度引起关注,则其个体内容同样具有很高的关注度,或者说具有一定的潜在价值。通过数据搜集分析,发现了热门主持人,之后在对其内容进行挖掘分析,得出其内容里的高频词属于公众共同关注的热点词汇,由此可以挖掘出一些潜在的热点词汇,用以确定或分析出更多公众共同关注的热点。新浪微博可以以此作为一个依据,可以提供给用户更个性化的内容。热门主持人的提出,可以引起公众新的微博阅读习惯,能使微博产生更多样化的阅读方式。本文通过定性分析现有的热点内容,发现数据里的潜在分析点,再通过定量数据采集分析确定了自己的发现:热点话题主持人的微博内容具有很高的公众关注度,对于公共关注的热点问题有很高的参考价值。参考文献:
目录
摘要 2
关键字 2
Abstract 2
Key words 2
一、引 言 3
二、 数据采集预处理 4
(一) 数据采集分析流程 4
(二) 数据采集工具 5
(三)热门主持人发现理论依据 5
1.HITS算法理论 5
2.数理统计方法 6
3.文本挖掘分析 6
4.社会网络分析方法 6
三、数据分析 6
(一)热门主持人发现数据分析 6
1.原始数据 6
2.数据加工 7
3.定性分析 8
4.热门主持人统计分析 8
(二)微博内容数据处理 10
(三)研究对象 12
(四)结果呈现与分析 12
1.热门主持人发现分析 12
2.热门主持人微博内容分析 13
四、 效果验证 14
五、 结语 15
参考文献 15
微博热门话题主持人的发现与分析
信息管理与信息系统 陈亮
引言
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/1009.html