fuzzycmeans的微博数据聚类的分析与实现(源码)
摘要:本文针对微博用户转发的已知主题的微博内容进行聚类分析。根据微博内容文字较少,较容易发现主题的特点,采用模糊C均值聚类算法Fuzzy C-Means作为研究算法,将微博内容划分为多个类,且类间无相关性,达到所分聚类的主题与已知主题一致的目的。本文主要写了Fuzzy C-Means算法的产生,发展及使用方法,采用MySQL构建数据库,结合TF-IDF文本特征提取算法和IKAnalyzer分词器,Java作为开发语言,并利用模拟数据集进行多次实验验证聚类的有效性。针对Fuzzy C-Means算法的研究对于文本聚类和信息搜索具有重要的意义。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1选题背景2
1.1问题的提出2
1.2国内外研究状况2
1.2.1国外研究状况2
1.2.2国内研究状况2
1.3研究的目的和内容3
2开发平台及应用技术3
2.1 Java语言3
2.2Eclipse开发平台3
2.3 MySQL数据库概述4
2.4 IKAnalyzer分词器4
3数据预处理4
3.1数据清洗4
3.2分词5
3.3向量空间模型6
3.4特征词选取7
3.5聚类数据准备9
4FCM聚类算法9
4.1FCM算法产生与发展9
4.2FCM算法原理10
4.3FCM算法实现过程10
5实验及结果分析11
6总结14
7致谢14
参考文献14
基于Fuzzy CMeans的微博数据聚类的分析与实现
引言
聚类分析属于无监督分类,在同级模式识别中占有重要的位置,模糊C均值能够自动把数据归为一类,再逐渐优化模糊目标函数,通过使目标函数无限接近一个设定的阈值得到所有样本点对不同聚类中心的隶属程度,从而可以判断和确定样本点到底属于哪一类,FCM是一种有效的聚类方法。FCM常应用于模式识
*好棒文|www.hbsrm.com +Q: %3^5`1^9`1^6^0`7^2#
别、医学诊断、图像分割、图像识别、目标识别等常见领域。但是FCM算法存在一定的缺陷,就是它的样本矢量中各维特征向量对最终的聚类效果会带来一些影响,而且由于实际问题中样本数量巨大,可以想象聚类时将会占用巨大的空间以及大量的时间,且有时常常陷入局部最优解的问题上。因此在实际应用中有一定的有限性。
本论文选择微博转发内容作为聚类的样本,是因其文本短,主题较容易发现。从数据库中取出的数据还不能直接作为聚类的样本,必须经过预处理和转换成空间向量之后才能传递给聚类算法。预处理阶段最重要的一步就是把特征词从文本中选取出来。选取出的特征项必须具备一定的特性,要能标识文本内容和区别开其他文本的能力,个数不能太多且分离出来要容易等特点。本文使用的TFIDF特征向量选取算法是单词权重最有效的实现方法。在算法中TF是将某一特定词条出现的频率的归一化,IDF是指在所有文档或语料库中,统计包含某一关键词组的文档数量,再将总的文档数除以这个数字,求得的值就是这个关键词组的IDF值。计算完所有文档的所有词组的tf值和idf值之后,再将这两个值相乘就可以得到每一个词组的权重,聚类的有效性也会大大提高。
1.选题背景
1.1 问题的提出
微博是这几年里崛起发展最快速的新生代网络应用形式。微博最大的特色就是每一条状态的字数有一定的限制,这种形式不同于博客,非常适合现在人们快速生活的节奏。也正是因为这种字数限制,可以让用户更加方便快捷的发现自己感兴趣的内容,从而进行下一步的操作,比如收藏、转发和评论。第二大特色体现在移动端上,微博也不例外,用户可以通过微博客户端实时的更新自己的和查看好友的微博状态,主要通过上传和分享这两个最重要的功能。据统计,使用微博的人越来越多,而且这些主力使用者的年龄大多在80年到90年之间,这种趋势正好符合微博这种状态信息更新频繁、信息传播迅速的平台,因此分析和研究微博数据成为了现在毋庸置疑的趋势,也将带来巨大的商业价值。
微博转发内容的分类是属于文本分类方向的。我们身处在这个遍地都是信息的时代里,可以看到其中文本占据绝大部分信息的比例,比如网络上的广告词,介绍等等,由于文本是人类能了解信息的载体,这种有结构的语言有两个特点:一是不仅要包含大量的信息,这些信息还要能代表文本的特征,二是这种语言的结构不能太复杂和难以理解,这样会很难找到一个合适处理的学习算法。综上到目前为止,最合适的结构就是向量空间模型,通过此模型将机器不能理解的文本转化成文本向量,就可以被计算机所理解,这也是文本挖掘第一个要解决的事情。建立空间模型其实就是把一篇文档所有的词组看作一个点,它的坐标就是它在文中的位置,那如何把一篇连续的文章表示成向量就是分词的任务了。首先用分词算法或已经实现的分词器分词,分完词后的文档就不再是连续的文章了,而是变成大量词组组成的文档。由此就建立了空间模型,但是这里存在一个问题,如果某篇文档很长,特征项数量巨大,那么该文档的维度将会是非常的大[1],非常不利于计算机的处理。由此我们可以想到给过大的向量降维。每篇文档的特征项有很多,但是能够反映该文档内容的只有一小部分,如果只把这小部分特征项选取出来建立空间向量模型,那么这篇的空间模型的维度会大大降低,不仅能提高计算机的处理效率,还能提高后续聚类的准确性。本论文选择了最常使用的TFIDF算法,对于文本长度小的微博内容来说,是最有效的关键词权重计算方法。
聚类,观其字面含义就可以知道是把具有相同属性或性质的对象划分为一类,这样就可以很容易的把大量不同类型的对象区别开,如KMeans算法,让划分后的类互不相同。[2]。但是在现实生活中,因为中文数量大且样式和类别繁多,并没有把文本对象分类到一个很严格的类属里面,因此其词性和类属有中介性的特点,往往多个不同的类中会包含同一个文本对象,具有“亦此亦彼”的特性,因此适合软化分(SoftPartition)[3],即FCM模糊聚类,可得到文本对象属于各个类别的程度大小,从而更加客观的反映现实世界。
国内外研究状况
1.2.1 国外研究状况
国外最主流的微博媒体就是美国的“推特”,它自2006年3月创立以来,用户数量在这几年中突飞猛进,在2012年时推特的用户数量大约有2亿人。微博如此快速的发展引起了国内外学者的关注,研究多是以推特为对象开展的对微博方方面面的探索。
在1965年,多值集合理论被美国自动控制专家、数学家扎德(L.A.Zadeh)在他的论文《模糊集(Fuzzy Sets)》[4]中提出来。伴随着模糊集理论的行程、发展和深化[5],Ruspini率先提出了模糊划分的概念。
1.2.2 国内研究状况
在中国,微博注册用户暴增近9倍,在微博媒体中占比最高的就是新浪微博,它的微博月活跃用户数已经达到1.67亿人。面对发展如此迅猛的新浪微博,国内很多学者都对其进行了全面的研究和各方面数据挖掘分析,呈现出一片瞬间繁荣的研究景象。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1选题背景2
1.1问题的提出2
1.2国内外研究状况2
1.2.1国外研究状况2
1.2.2国内研究状况2
1.3研究的目的和内容3
2开发平台及应用技术3
2.1 Java语言3
2.2Eclipse开发平台3
2.3 MySQL数据库概述4
2.4 IKAnalyzer分词器4
3数据预处理4
3.1数据清洗4
3.2分词5
3.3向量空间模型6
3.4特征词选取7
3.5聚类数据准备9
4FCM聚类算法9
4.1FCM算法产生与发展9
4.2FCM算法原理10
4.3FCM算法实现过程10
5实验及结果分析11
6总结14
7致谢14
参考文献14
基于Fuzzy CMeans的微博数据聚类的分析与实现
引言
聚类分析属于无监督分类,在同级模式识别中占有重要的位置,模糊C均值能够自动把数据归为一类,再逐渐优化模糊目标函数,通过使目标函数无限接近一个设定的阈值得到所有样本点对不同聚类中心的隶属程度,从而可以判断和确定样本点到底属于哪一类,FCM是一种有效的聚类方法。FCM常应用于模式识
*好棒文|www.hbsrm.com +Q: %3^5`1^9`1^6^0`7^2#
别、医学诊断、图像分割、图像识别、目标识别等常见领域。但是FCM算法存在一定的缺陷,就是它的样本矢量中各维特征向量对最终的聚类效果会带来一些影响,而且由于实际问题中样本数量巨大,可以想象聚类时将会占用巨大的空间以及大量的时间,且有时常常陷入局部最优解的问题上。因此在实际应用中有一定的有限性。
本论文选择微博转发内容作为聚类的样本,是因其文本短,主题较容易发现。从数据库中取出的数据还不能直接作为聚类的样本,必须经过预处理和转换成空间向量之后才能传递给聚类算法。预处理阶段最重要的一步就是把特征词从文本中选取出来。选取出的特征项必须具备一定的特性,要能标识文本内容和区别开其他文本的能力,个数不能太多且分离出来要容易等特点。本文使用的TFIDF特征向量选取算法是单词权重最有效的实现方法。在算法中TF是将某一特定词条出现的频率的归一化,IDF是指在所有文档或语料库中,统计包含某一关键词组的文档数量,再将总的文档数除以这个数字,求得的值就是这个关键词组的IDF值。计算完所有文档的所有词组的tf值和idf值之后,再将这两个值相乘就可以得到每一个词组的权重,聚类的有效性也会大大提高。
1.选题背景
1.1 问题的提出
微博是这几年里崛起发展最快速的新生代网络应用形式。微博最大的特色就是每一条状态的字数有一定的限制,这种形式不同于博客,非常适合现在人们快速生活的节奏。也正是因为这种字数限制,可以让用户更加方便快捷的发现自己感兴趣的内容,从而进行下一步的操作,比如收藏、转发和评论。第二大特色体现在移动端上,微博也不例外,用户可以通过微博客户端实时的更新自己的和查看好友的微博状态,主要通过上传和分享这两个最重要的功能。据统计,使用微博的人越来越多,而且这些主力使用者的年龄大多在80年到90年之间,这种趋势正好符合微博这种状态信息更新频繁、信息传播迅速的平台,因此分析和研究微博数据成为了现在毋庸置疑的趋势,也将带来巨大的商业价值。
微博转发内容的分类是属于文本分类方向的。我们身处在这个遍地都是信息的时代里,可以看到其中文本占据绝大部分信息的比例,比如网络上的广告词,介绍等等,由于文本是人类能了解信息的载体,这种有结构的语言有两个特点:一是不仅要包含大量的信息,这些信息还要能代表文本的特征,二是这种语言的结构不能太复杂和难以理解,这样会很难找到一个合适处理的学习算法。综上到目前为止,最合适的结构就是向量空间模型,通过此模型将机器不能理解的文本转化成文本向量,就可以被计算机所理解,这也是文本挖掘第一个要解决的事情。建立空间模型其实就是把一篇文档所有的词组看作一个点,它的坐标就是它在文中的位置,那如何把一篇连续的文章表示成向量就是分词的任务了。首先用分词算法或已经实现的分词器分词,分完词后的文档就不再是连续的文章了,而是变成大量词组组成的文档。由此就建立了空间模型,但是这里存在一个问题,如果某篇文档很长,特征项数量巨大,那么该文档的维度将会是非常的大[1],非常不利于计算机的处理。由此我们可以想到给过大的向量降维。每篇文档的特征项有很多,但是能够反映该文档内容的只有一小部分,如果只把这小部分特征项选取出来建立空间向量模型,那么这篇的空间模型的维度会大大降低,不仅能提高计算机的处理效率,还能提高后续聚类的准确性。本论文选择了最常使用的TFIDF算法,对于文本长度小的微博内容来说,是最有效的关键词权重计算方法。
聚类,观其字面含义就可以知道是把具有相同属性或性质的对象划分为一类,这样就可以很容易的把大量不同类型的对象区别开,如KMeans算法,让划分后的类互不相同。[2]。但是在现实生活中,因为中文数量大且样式和类别繁多,并没有把文本对象分类到一个很严格的类属里面,因此其词性和类属有中介性的特点,往往多个不同的类中会包含同一个文本对象,具有“亦此亦彼”的特性,因此适合软化分(SoftPartition)[3],即FCM模糊聚类,可得到文本对象属于各个类别的程度大小,从而更加客观的反映现实世界。
国内外研究状况
1.2.1 国外研究状况
国外最主流的微博媒体就是美国的“推特”,它自2006年3月创立以来,用户数量在这几年中突飞猛进,在2012年时推特的用户数量大约有2亿人。微博如此快速的发展引起了国内外学者的关注,研究多是以推特为对象开展的对微博方方面面的探索。
在1965年,多值集合理论被美国自动控制专家、数学家扎德(L.A.Zadeh)在他的论文《模糊集(Fuzzy Sets)》[4]中提出来。伴随着模糊集理论的行程、发展和深化[5],Ruspini率先提出了模糊划分的概念。
1.2.2 国内研究状况
在中国,微博注册用户暴增近9倍,在微博媒体中占比最高的就是新浪微博,它的微博月活跃用户数已经达到1.67亿人。面对发展如此迅猛的新浪微博,国内很多学者都对其进行了全面的研究和各方面数据挖掘分析,呈现出一片瞬间繁荣的研究景象。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2295.html