高校舆情挖掘与分析个性化(源码)
为了拓宽高校管理人员了解学生日常生活的渠道,提高对高校学生的整体关注度,设计实现了一种基于LSI模型的高校舆情挖掘与分析系统。系统中的数据来源于百度帖吧,抓取了近4万篇帖子。通过综合分析高校学生的发帖记录、评论信息等数据,并使用k-means聚类算法和基于情感词典的分析方法对与主题相关的关键词进行处理,分析高校学生讨论的热点话题与评论之间的情感极性。系统通过Python语言开发实现。关键词 网络舆情,k-means聚类,LSI模型,情感极性分析,辅助分析系统
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 4
2 关键问题的研究 4
2.1 关键问题 4
2.2 关键技术 5
3 算法设计 6
3.1 Kmeans文本聚类算法 6
3.2 基于情感字典的情感极性分析算法 11
4 总体方案设计 13
5 详细设计 15
5.1 数据库设计 15
5.2 爬虫模块设计 16
5.3 数据预处理及数据结构设计 18
5.4 热点话题聚类设计 19
5.5 情感极性分析设计 20
5.6 系统显示模块设计 21
6 测试 26
6.1 系统部署 26
6.2 系统结果 27
结 论 31
致 谢 32
参 考 文 献 33
附录B 大学期间完成的软件著作权 41
附录C 查重报告首页 42
引言
课题背景
中国互联网信息中心第39次报告公布,到2016年12月为止,中国网民累积数量增加到7.31亿,相当于欧洲人口总量,互联网普及率上升到53.2%。用户量的高速增长,使得互联网与人们生活之间联系更加紧密。尤其高校学生这个群体的使用更频繁,互联网不仅是高校学生完成学习任务的重要方式,也是交流讨论的主要阵地。因此高校在教学管理中越来越重视数据挖掘技术的应用。各高校网络系统中积累了庞大的数据量,挖掘出这些 *好棒文|www.hbsrm.com +Q: ^351916072#
数据存在的价值,可为高校进一步发展提供决策依据[1]。然而,各高校并没有对这些数据进行有效的利用,仅仅用于简单的数据检索与查询服务或是报表统计功能,而未对数据的深层信息进行挖掘,从而没有发挥系统数据应有的作用。
为了有效利用公共网络的数据,拓宽高校了解在校学生的途径,运用数据挖掘技术建立一套高校舆情挖掘与分析系统。系统采用信息的收集,文本的抓取等相关技术,来收集高校学生讨论的信息;再通过数据预处理、中文文本分词、过滤停用词、主题分析,文本聚类和统计判断等方法。在充分尊重高校学生隐私的前提下,抓取学生在网络的发帖数据,并进行聚类分析,帮助高校管理者关注学生们讨论火热的话题,从而为高校学生提供更好的服务。
国内外研究综述
高校舆情挖掘与分析个性化服务系统充分利用数据挖掘技术。其主要目标是实现自动抓取并分析数据,挖掘到潜在隐含的知识,再将分析结果数据结构化供日后使用[2]。近年来在企业中数据挖掘技术也是发挥了重要的作用,例如工业系统工程和控制论研究的众多研究人员和从业者将数据挖掘技术应用到操作风险管理[3],一直关注工业系统的技术发展和进步,工业系统的可靠性和安全性。
数据采集
信息抽取技术的概念是在1970年首先提出的,通过利用一段自动下载网页的计算机程序或自动化脚本来实现的。近年来,互联网上网页数量指数式增长,传统的爬虫程序通常只能针对特定需要、特定数据,通过广度优先爬行策略,深度优先爬行策略来完成数据采集任务[4]。为了克服这个问题,于娟,刘强于2015年提出基于主题网络的爬虫研究方法,通过构建基于主题网络爬虫构建领域语料库,只下载与主题相关的页面[5]。国内的学者还提出基于主题的聚焦爬虫的研究,通过结合数据分析和数据挖掘技术引入了网站选取的分类机制,实现了具备自动分类并搜索主题网站的网络爬虫[6]。此外,在国外,为了解决社交网络提供商对数据检索的限制和追踪内容来源的困难。Symeon Papadopoulos等人研究了针对社交多媒体挖掘和搜索引擎的爬虫技术[7],提出了用于通用社交多媒体挖掘和搜索系统的概念架构,具有用于爬行,索引,挖掘和排序内容的组件。Jingtian Jiang等人提出一个受监督的网络规模论坛抓取工具的Forum Clawler Under,使用弱类型分类器学习网址的正则表达式模式,以最小的开销从网络上抓取相关的论坛内容[8]。
文本聚类
文本聚类在数据挖掘和自然语言处理等领域起着重要的作用。文本聚类在对大量文本处理的同时,还能发现文档集合中潜在的规律和知识。在国外,Alexandre Ribeiro运用文本聚类技术,实现了一种用于科学文章的自动文本聚类的新系统[9]。该系统在索引上应用了一种新的进化聚类算法,通过四种不同的语料库进行测试,最终测试效果显示合理的聚类效果。由于科学研究和商业应用中数据量的不断增加,为了解决高质量和快速的文档聚类算法需要处理大量数据的问题。J. E. Judith等人提出一种基于混合方法的分布式文档聚类分析方法,通过使用基于粒子群优化的K均值聚类的最优质心,改善聚类效果 [10] 。Panagiotis Kokkinos等人与2016年提出一种基于推文中的理论信息指标来模拟Twitter动态[11]。文档之间的相似度使用黎曼距离用于词语签名,以尽量减少由于提交延迟而引起的时效。同时,很多国内学者也进行了深入的研究,为了解决传统文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。王鹏等人提出一种Gibbs与LDA模型的文本聚类方法,采用Gibbs算法来估计文本的主题概率分布,使用JensenShannon算法来计算文档之间的的距离,最后采用层次聚类法进行聚类[12]。JenTzung Chien考虑到文本语料库中的分层数据分组,提出结构学习的方法从文档集合中推断句子和单词的潜在主题,进而提取主题句和主题词[13]。
话题检测与追踪技术
话题检测与追踪是为处理互联网上的数据量爆炸问题的一项信息处理技术,自动识别新媒体数据流中的新话题并跟踪已知话题[14]。在国外,为了自动检测与跟踪新闻主题,Hang Qi等人提出一个多模态主题和图形来共同表达新闻故事的文本和视觉元素及其潜在的主题结构[15]。利用涉及人员,相关地点和发生的事件的语义元素之间建立语境关系,再通过集群抽样过程来检测新闻主题,将关于密切相关时间的故事集中在一起。而Xi Ding等人提出一种包含情感和动态特征的话题模型[16],解决传统的文本分析方法只关注词语之间的统计学相关性,而忽略了可能对主题检测后果影响的情绪倾向和时间性质。同时在国内也进行了相关研究,目前有很多应用于话题检测的不同的聚类算法,如SinglePass聚类、增量Kmeans聚类、层次聚类等方法。其中层次聚类可以发现话题的不同侧面和层次结构。近年来,社交媒体人们交际层次上的地位越来越重要,胡耀斌等人为了克服话题漂移的产生会影响话题检测与追踪准确率的问题,提出了一种动态的话题检测和追踪模型[17]。实验表明可以有效提高话题漂移现象的影响。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 4
2 关键问题的研究 4
2.1 关键问题 4
2.2 关键技术 5
3 算法设计 6
3.1 Kmeans文本聚类算法 6
3.2 基于情感字典的情感极性分析算法 11
4 总体方案设计 13
5 详细设计 15
5.1 数据库设计 15
5.2 爬虫模块设计 16
5.3 数据预处理及数据结构设计 18
5.4 热点话题聚类设计 19
5.5 情感极性分析设计 20
5.6 系统显示模块设计 21
6 测试 26
6.1 系统部署 26
6.2 系统结果 27
结 论 31
致 谢 32
参 考 文 献 33
附录B 大学期间完成的软件著作权 41
附录C 查重报告首页 42
引言
课题背景
中国互联网信息中心第39次报告公布,到2016年12月为止,中国网民累积数量增加到7.31亿,相当于欧洲人口总量,互联网普及率上升到53.2%。用户量的高速增长,使得互联网与人们生活之间联系更加紧密。尤其高校学生这个群体的使用更频繁,互联网不仅是高校学生完成学习任务的重要方式,也是交流讨论的主要阵地。因此高校在教学管理中越来越重视数据挖掘技术的应用。各高校网络系统中积累了庞大的数据量,挖掘出这些 *好棒文|www.hbsrm.com +Q: ^351916072#
数据存在的价值,可为高校进一步发展提供决策依据[1]。然而,各高校并没有对这些数据进行有效的利用,仅仅用于简单的数据检索与查询服务或是报表统计功能,而未对数据的深层信息进行挖掘,从而没有发挥系统数据应有的作用。
为了有效利用公共网络的数据,拓宽高校了解在校学生的途径,运用数据挖掘技术建立一套高校舆情挖掘与分析系统。系统采用信息的收集,文本的抓取等相关技术,来收集高校学生讨论的信息;再通过数据预处理、中文文本分词、过滤停用词、主题分析,文本聚类和统计判断等方法。在充分尊重高校学生隐私的前提下,抓取学生在网络的发帖数据,并进行聚类分析,帮助高校管理者关注学生们讨论火热的话题,从而为高校学生提供更好的服务。
国内外研究综述
高校舆情挖掘与分析个性化服务系统充分利用数据挖掘技术。其主要目标是实现自动抓取并分析数据,挖掘到潜在隐含的知识,再将分析结果数据结构化供日后使用[2]。近年来在企业中数据挖掘技术也是发挥了重要的作用,例如工业系统工程和控制论研究的众多研究人员和从业者将数据挖掘技术应用到操作风险管理[3],一直关注工业系统的技术发展和进步,工业系统的可靠性和安全性。
数据采集
信息抽取技术的概念是在1970年首先提出的,通过利用一段自动下载网页的计算机程序或自动化脚本来实现的。近年来,互联网上网页数量指数式增长,传统的爬虫程序通常只能针对特定需要、特定数据,通过广度优先爬行策略,深度优先爬行策略来完成数据采集任务[4]。为了克服这个问题,于娟,刘强于2015年提出基于主题网络的爬虫研究方法,通过构建基于主题网络爬虫构建领域语料库,只下载与主题相关的页面[5]。国内的学者还提出基于主题的聚焦爬虫的研究,通过结合数据分析和数据挖掘技术引入了网站选取的分类机制,实现了具备自动分类并搜索主题网站的网络爬虫[6]。此外,在国外,为了解决社交网络提供商对数据检索的限制和追踪内容来源的困难。Symeon Papadopoulos等人研究了针对社交多媒体挖掘和搜索引擎的爬虫技术[7],提出了用于通用社交多媒体挖掘和搜索系统的概念架构,具有用于爬行,索引,挖掘和排序内容的组件。Jingtian Jiang等人提出一个受监督的网络规模论坛抓取工具的Forum Clawler Under,使用弱类型分类器学习网址的正则表达式模式,以最小的开销从网络上抓取相关的论坛内容[8]。
文本聚类
文本聚类在数据挖掘和自然语言处理等领域起着重要的作用。文本聚类在对大量文本处理的同时,还能发现文档集合中潜在的规律和知识。在国外,Alexandre Ribeiro运用文本聚类技术,实现了一种用于科学文章的自动文本聚类的新系统[9]。该系统在索引上应用了一种新的进化聚类算法,通过四种不同的语料库进行测试,最终测试效果显示合理的聚类效果。由于科学研究和商业应用中数据量的不断增加,为了解决高质量和快速的文档聚类算法需要处理大量数据的问题。J. E. Judith等人提出一种基于混合方法的分布式文档聚类分析方法,通过使用基于粒子群优化的K均值聚类的最优质心,改善聚类效果 [10] 。Panagiotis Kokkinos等人与2016年提出一种基于推文中的理论信息指标来模拟Twitter动态[11]。文档之间的相似度使用黎曼距离用于词语签名,以尽量减少由于提交延迟而引起的时效。同时,很多国内学者也进行了深入的研究,为了解决传统文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。王鹏等人提出一种Gibbs与LDA模型的文本聚类方法,采用Gibbs算法来估计文本的主题概率分布,使用JensenShannon算法来计算文档之间的的距离,最后采用层次聚类法进行聚类[12]。JenTzung Chien考虑到文本语料库中的分层数据分组,提出结构学习的方法从文档集合中推断句子和单词的潜在主题,进而提取主题句和主题词[13]。
话题检测与追踪技术
话题检测与追踪是为处理互联网上的数据量爆炸问题的一项信息处理技术,自动识别新媒体数据流中的新话题并跟踪已知话题[14]。在国外,为了自动检测与跟踪新闻主题,Hang Qi等人提出一个多模态主题和图形来共同表达新闻故事的文本和视觉元素及其潜在的主题结构[15]。利用涉及人员,相关地点和发生的事件的语义元素之间建立语境关系,再通过集群抽样过程来检测新闻主题,将关于密切相关时间的故事集中在一起。而Xi Ding等人提出一种包含情感和动态特征的话题模型[16],解决传统的文本分析方法只关注词语之间的统计学相关性,而忽略了可能对主题检测后果影响的情绪倾向和时间性质。同时在国内也进行了相关研究,目前有很多应用于话题检测的不同的聚类算法,如SinglePass聚类、增量Kmeans聚类、层次聚类等方法。其中层次聚类可以发现话题的不同侧面和层次结构。近年来,社交媒体人们交际层次上的地位越来越重要,胡耀斌等人为了克服话题漂移的产生会影响话题检测与追踪准确率的问题,提出了一种动态的话题检测和追踪模型[17]。实验表明可以有效提高话题漂移现象的影响。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1296.html