改进lda模型的大微博主题发现(附件)
微博以其大众化、实时性、便捷性在高校中流行,如何有效发现微博信息中的隐含主题已成为当前社会科学的重要研究领域之一。本文在梳理国内外主流的主题发现方法后,提出一种基于LDA模型的微博文本主题自动发现方法。本文通过对微博数据进行有效地清洗和预处理,并利用微博热词、新词对现有词典进行扩充,选择名词作为特征词已建立LDA模型。通过对比其他特征提取方法,实验发现本文方法可以有效的提高主题发现的效率和精度,结果更直观且易于理解。最后对本文进行了总结,讨论了文本方法存在的局限以及进一步的展望。
目录
摘要 1
关键词 1
Abstract 1
引言
引言
一、文献综述 2
(一)文本聚类 2
(二)主题模型 3
(三)复合方法 4
二、改进的LDA模型方法 4
(一)方法流程架构描述 4
(二)实现的关键技术 5
1.文本预处理 5
2.词典构建 6
3.特征词选择 6
4.LDA建模 7
三、实验结果与分析 7
(一)实验环境及实验方法 7
1.实验环境 7
2.数据的获取 7
3.评价方法 7
(二)LDA建模结果分析 8
(三)特征提取方法对比分析 9
四、总结与展望 10
(一)研究结论 10
(二)研究局限与展望 10
致谢 11
参考文献 11
图1 改进LDA模型方法架构图 5
图2 建模输出结果(部分) 9
表1 同义词词典(部分) 6
表2 自定义词典(部分) 6
表3 类及标识词 8
表4 评价指标含义 8
表5 实验方法分类结果 9
表6 特征提取方法对比 10
基于改进LDA模型的大学生微博主题发现
Research on Topic Discovery of University Microblog
Ba *好棒文|www.hbsrm.com +Q: ¥351916072¥
sed on Improved LDA Model
Student majoring in Information Management and Information System AI Yuxi
Tutor HE Lin
Abstract:Microblogs is popular in universities because of its popularity, realtime, and convenience. How to effectively discover hidden topics in microblog information has become one of the important research fields in the current social sciences. After combing the mainstream topic discovery methods both at home and abroad, this paper proposes an automatic discovery method based on LDA model. This article effectively cleans and preprocesses the microblogs data, and uses the microblogs hot words and new words to expand the existing dictionary. Selecting nouns as feature words has established the LDA model. By comparing with other feature extraction methods, the experiment shows that this method can effectively improve the efficiency and accuracy of topic discovery, and the results are more intuitive and easier to understand. Finally, this article summarizes the text, discusses the limitations of the text method and further prospects.
Key words: University Microblogs;Topics discovery;LDA Model;Data mining
引言
自微博在社会普及起,成为人们随时随地表达意见、观点的社交平台。与此同时,如何有效地利用并挖掘隐藏于这些庞大数据之下的话题,成为大数据时代关注的重点。对高校而言,微博作为校园舆情的主要来源之一,挖掘高校微博的潜在主题已成为校园网络舆情管理的有效途径。因此在高校网络舆情情境下,研究设计有效的微博主题自动发现系统,对高校舆情管理进程的发展具有促进意义。
目前对于微博文本的研究多集中于情感分析、用户结构等方面,而对于微博文本的内在关系的研究较少[1]。其中国外对于微博数据的研究主要集中于微博文本的内容挖掘、数据的传播方式以及微博用户使用行为等几方面,国内的研究主要集中于微博信息的传播[2]。总体而言,国内外对微博的研究更重视技术和应用,对微博主题发现的技术研究相对较少。本文是基于改进LDA模型的高校微博文本主题自动发现,目的在于利用机器学习结合数据分析的方法,从数学的角度分析总结微博平台高校用户关注的潜在话题。本文在充分考虑微博数据的结构化信息的基础上,深入分析微博新词、热词对微博文本主题的影响,对特征词词典进行扩充并加以词性区分,只抽取名词作为主题词对LDA模型加以改进。实验发现,本文方法有效地提高了微博数据主题发现的精度与效率,同时主题发现的结果更易被理解。
一、文献综述
主题发现,即主题聚类广义上指包括文本、图片、音视频等信息的主题发现方法,狭义上特指从大规模文本中提取主题的方法[3]。其中微博文本的主题发现主要有两种方法:文本聚类算法和主题模型[4]。
目录
摘要 1
关键词 1
Abstract 1
引言
引言
一、文献综述 2
(一)文本聚类 2
(二)主题模型 3
(三)复合方法 4
二、改进的LDA模型方法 4
(一)方法流程架构描述 4
(二)实现的关键技术 5
1.文本预处理 5
2.词典构建 6
3.特征词选择 6
4.LDA建模 7
三、实验结果与分析 7
(一)实验环境及实验方法 7
1.实验环境 7
2.数据的获取 7
3.评价方法 7
(二)LDA建模结果分析 8
(三)特征提取方法对比分析 9
四、总结与展望 10
(一)研究结论 10
(二)研究局限与展望 10
致谢 11
参考文献 11
图1 改进LDA模型方法架构图 5
图2 建模输出结果(部分) 9
表1 同义词词典(部分) 6
表2 自定义词典(部分) 6
表3 类及标识词 8
表4 评价指标含义 8
表5 实验方法分类结果 9
表6 特征提取方法对比 10
基于改进LDA模型的大学生微博主题发现
Research on Topic Discovery of University Microblog
Ba *好棒文|www.hbsrm.com +Q: ¥351916072¥
sed on Improved LDA Model
Student majoring in Information Management and Information System AI Yuxi
Tutor HE Lin
Abstract:Microblogs is popular in universities because of its popularity, realtime, and convenience. How to effectively discover hidden topics in microblog information has become one of the important research fields in the current social sciences. After combing the mainstream topic discovery methods both at home and abroad, this paper proposes an automatic discovery method based on LDA model. This article effectively cleans and preprocesses the microblogs data, and uses the microblogs hot words and new words to expand the existing dictionary. Selecting nouns as feature words has established the LDA model. By comparing with other feature extraction methods, the experiment shows that this method can effectively improve the efficiency and accuracy of topic discovery, and the results are more intuitive and easier to understand. Finally, this article summarizes the text, discusses the limitations of the text method and further prospects.
Key words: University Microblogs;Topics discovery;LDA Model;Data mining
引言
自微博在社会普及起,成为人们随时随地表达意见、观点的社交平台。与此同时,如何有效地利用并挖掘隐藏于这些庞大数据之下的话题,成为大数据时代关注的重点。对高校而言,微博作为校园舆情的主要来源之一,挖掘高校微博的潜在主题已成为校园网络舆情管理的有效途径。因此在高校网络舆情情境下,研究设计有效的微博主题自动发现系统,对高校舆情管理进程的发展具有促进意义。
目前对于微博文本的研究多集中于情感分析、用户结构等方面,而对于微博文本的内在关系的研究较少[1]。其中国外对于微博数据的研究主要集中于微博文本的内容挖掘、数据的传播方式以及微博用户使用行为等几方面,国内的研究主要集中于微博信息的传播[2]。总体而言,国内外对微博的研究更重视技术和应用,对微博主题发现的技术研究相对较少。本文是基于改进LDA模型的高校微博文本主题自动发现,目的在于利用机器学习结合数据分析的方法,从数学的角度分析总结微博平台高校用户关注的潜在话题。本文在充分考虑微博数据的结构化信息的基础上,深入分析微博新词、热词对微博文本主题的影响,对特征词词典进行扩充并加以词性区分,只抽取名词作为主题词对LDA模型加以改进。实验发现,本文方法有效地提高了微博数据主题发现的精度与效率,同时主题发现的结果更易被理解。
一、文献综述
主题发现,即主题聚类广义上指包括文本、图片、音视频等信息的主题发现方法,狭义上特指从大规模文本中提取主题的方法[3]。其中微博文本的主题发现主要有两种方法:文本聚类算法和主题模型[4]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/514.html