新浪微博内容的热门话题检测

摘要:随着互联网、通信产业的迅猛发展,微博成为了重要的舆论风向标和监控对象。微博中的热门话题也很快扩散成为整个社会的热点事件。基于新浪微博内容的热门话题提取,主要包括微博数据的获取、预处理、微博数据的文本表示、特征提取、文本聚类、话题关键词提取和话题提取等步骤。并借助WEKA软件分析大规模微博数据,得到关键词并有效提取微博话题。实验结果表明,SimpleKMeans算法适合从无干扰的数据集中有效提取话题,EM算法适合从有干扰的数据集中有效提取话题。
目录
摘要 1
关键词 1
1 绪论 1
1.1 研究背景与意义 1
1.2 国内外研究状况 2
1.3 研究的目的和内容 2
1.4 开发环境和工具 3
1.4.1 采用Java语言的原因 3
1.4.2 采用WEKA软件的原因 3
2 微博数据获取 3
2.1 手工采集 3
2.2 八爪鱼采集器 3
2.3 数据存储 4
2.3.1网页获取数据后数据存储 4
2.3.2分词后数据存储 5
2.3.3进入WEKA软件前数据存储 5
3 文本特征提取 5
3.1 中文分词 5
3.2 特征提取 6
3.2.1 基于TFIDF的特征提取 6
3.2.2文本向量空间模型建立 6
4 聚类算法 6
4.1划分算法 6
4.2层次算法 7
4.3密度聚类算法 8
5 结果与分析 9
5.1基于eclipse平台聚类算法 9
5.1.1个人编写程序的实验结果 9
5.1.2聚类结果分析 9
5.2基于Weka的成熟聚类算法 10
5.2.1海量测试数据 10
5.2.2聚类结果分析 11
5.3小结 13
6 基于关键词的微博话题提取 14
6.1 类内关键词的提取 14
6.2 微博话题的提取 15

 *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
7 不足 16
8 总结与展望 16
8.1总结 16
8.2展望 17
致谢 17
参考文献 17
基于新浪微博内容的热门话题检测
引言
随着科学技术的迅猛发展,微博成为日常生活中重要的舆论风向标和监控对象。微博中的热点话题也同样以最快的速度扩散为社会中的热点事件。微博是普通用户共享个人信息、获取他人实时信息的重要平台。获取热门话题的内容成为及时捕获网络舆论热点的重要方式。掌握热门话题便能了解最新的社会热点,掌握舆论的动向。但这种爆炸式增长的信息资源缺乏内容的结构化,人们在获得了大量信息的同时,也不得不花大量的时间来阅读和整理这些信息,大大降低了人们的检索效率。因此,面对大规模的微博内容,有效获取与之相关的话题变得尤其重要。微博话题的提取可基于从大量文本中提取的关键词。关键词是对文章内容具有实质性意义的词或词组,能够反映整个微博事件的主题词。所以,根据对大量文本的关键词提取是微博话题提取的重要步骤。
1 绪论
1.1 研究背景与意义
微博的特点是信息的即时性和简洁性。在微博应用中,用户通过刷新个人微博主页,获取来自所关注的微博用户发布的微博信息内容。用户可以随时随地通过多种方式(如手机,网页等)发布某些简洁的信息,使得自己的粉丝可以马上看到发布的微博内容。大量的微博内容通常较繁杂,这就使得微博用户无法准确获取到整个微博空间中的热门话题。
由此可见,准确提炼出大量文本内容的话题有助于用户对海量信息进行浓缩、提炼。然而目前中文文本话题的提取工作主要依靠领域专家手工完成。所以本文提出热门话题的提取方法,主要研究如何从大量微博文本内容中提取相关话题关键词,由提取的关键词提炼出相关的微博话题。
1.2 国内外研究状况
2006年,微博的先驱Twitter起源于美国,由埃文威廉姆斯(Evan Williams)等人创建[1]。Twitter具有字数有限、抵达速度快以及自主性的特点。在Twitter平台中,每个用户可发布不超过140个单词的单条消息,并且该用户的关注者可查看消息并且对消息发表评论或者转发,实现了信息传播的快速、简单、互动[2]。
在世界范围内,微博与Twitter都呈现出蓬勃的发展趋势。根据分析机构Semiocast发布的数据显示,截至2012年7月1日,Twitter的全球用户数已突破5亿[3]。
在国外,对微博的主要研究集中在Twitter上,Honeycutt 等人通过分析用户如何利用Twitter进行群体和项目之间的沟通与协调,研究Twitter在用户协作方面的功能[3];Roach通过研究对Twitter中的关键词进行监控,得出在相关领域可进行定点广告投放得到经济效益[4];Chew对Twitter在特定时期2009年H1N1流感爆发时期进行研究,发现Twitter平台的多项功能:政府部门的信息发布平台、公民各方面观点和意见的展现平台,最后得出借助Twitter平台即时内容分析以及网络中快速传播的特点,可让卫生部门更好地关注社会公众的反应[4];Pal等人提出有效提取Twitter平台中特定话题的关键人物的算法[5]。
在国内,对于微博平台的研究主要集中在新闻传播学、营销学以及教育学方面。李心妍等人借助传播学的研究分析微博所产生的“微舆情”,剖析微博的传播形态以及特征,阐述“微舆情”传播过程中将会遇到的问题[6];蒋洪梅集中阐述了微博舆论在社会中影响的特点,并探讨了如何有效利用微博进行舆论引导[7];谢岚认为微博的传播过程与传统媒介有所不同,并阐述了微博传播模式的三个阶段[8];彭泽映等人发现基于微博的大规模短文本的“长尾分布”的特性,针对此现象提出一种基于不完全聚类思想对大量微博短文本进行聚类分析,并解决传统聚类算法无法有效对大规模短文本进行聚类的问题[8]。
1.3 研究的目的和内容
微博是一个开放的社交网络,大量的微博内容信息会造成用户读取主要信息困难。因此,从大量的微博内容中聚类得到话题,有利于用户对信息的提取。
本文的研究内容有:
(1)微博数据的获取;
(2)文本内容的特征提取;
(3)聚类算法的简单实现与比较;
(4)基于WEKA软件的数据分析;
(5)提取微博关键词与微博话题。

图1.1 技术路线图
1.4 开发环境和工具
本文采用了基于Java的可扩展开发平台Eclipse与JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件WEKA。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2194.html

好棒文