关键词词频的e线图情论坛热点分析

摘要:随着互联网的快速发展,论坛已经成为舆情传播机制的重要场所。关键词是表达文本内容主题概念的标识,在很大程度上反映了文本数据的主要研究内容。用户在论坛交流中的高频关键词可以充分反映了该论坛的讨论热点。E线图情网站是一个多元化的网站,本文以E线图情为例,利用八爪鱼采集器对数据进行采集,采用关键词词频统计分析得到论坛中三大板块的关键词热点,构造供词矩阵,利用spss聚类、ucinet可视化软件,对E线论坛热点其进行总体分析,再进行关键词分年段分析,并结合E线图情网站中数据库用户检索热词,分析论坛热点与数据库热点是否相对应。
目录
摘要 1
关键词 1
一、论坛热点挖掘概述 2
二、数据来源及数据收集 3
(一)数据来源 3
(二)数据收集及清洗 3
三、E线图情热点分析 3
(一)E线论坛学术区热点分析 3
(二)E线论坛资料区热点分析 5
(三)E线论坛业务区热点分析 7
(四)E线论坛共词分析 8
1.构造共词矩阵 8
2.构造相异矩阵 9
3.聚类分析 9
4.社交网络可视化分析 10
5.论坛热点总体分析 10
(五)关键词分年段统计分析 11
(六)E线论坛与E线数据库热点对比分析 14
四、结语 16
致谢 16
图1 学术区热点话题词频分析 7
图2 资料区热点话题词频分析 9
图3 业务区热点话题词频分析 10
图4 关键词聚类树状图 12
图5 关键词可视化网络图 13
表1 学术区关键词提取 6
表2 资料区关键字提取 8
表3 业务区关键词提取 9
表4 E线论坛高频关键词共词矩阵(局部) 10
表5 E线论坛高频关键词相异矩阵(局部) 11
表6 2003年2007年关键词提取 14
表7 2008年2012年关键词提取 15
表8 2013年2016年关键词提取 16
 *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
/> 表9 E线图情数据库用户搜索热点词汇 17
基于关键词词频的E线图情论坛热点分析
引言
in E line LIS Forum
Student majoring in Information Management and Information System LI Yuan
Tutor ZHANG Lin
Abstract:With the rapid development of the Internet, the Forum has become an important place for public opinion propagation mechanism. Key words are the expression of the text identifies the theme concept, largely reflects the main contents of text data. Forum’s user for the exchange of highfrequency keywords can fully reflect the focus of the forum discussion. E line LIS site is a diversified website.In this paper, E line LIS as an example, the use of octopus collector for data collection, statistical analysis got a hot keyword in the three sections of the forum,constructed confession matrix and using spss clustering,ucinet ucinet visualization softwore,got the E line LIS forum hot topics, Key points the annual analysis,and combined with E line LIS database user to retrieve hot words, analysis and database hot hot forum if correspend.
Keywords: Keyword Frequency;Coword analysis;Forum;Hot topic CNNIC 2015年6月第三十五次调查报告中提到:“数据调查截止2015年6月,我国网民已达到6.68亿,半年共计新增网民1894万人。互联网普及率48.8%,相比2014年底提升了0.9个百分点。”报告中的结果显示,我国论坛/BBS用户规模为12007万人,网民使用率18.0%,意味着我国网络用户总数之多,网络论坛用户规模之大。随着互联网时代的急速发展,信息用户也突破了传统的信息接受者和信息获取者的角色,转变成为网络用户,网络用户在接受、获取网络信息的同时会更频繁地生产、发布以及分享信息,用户参与度随之加深,特别是互联网论坛出现之后,论坛的言论自由性、用户之间的互动性让网民不仅是信息的接受者,还是信息的发布者和推动者,充分体现了用户在网络论坛中的参与作用。本文选取E线图情为研究对象,采用词频分析的方法得到E线论坛的热点方向,重点分析E线论坛学术区板块、资料区板块以及业务区板块之间热点的相似与差异之处,以及E线论坛分年段关键词的不同,并利用E线图情数据库热点对其论坛与数据库热点话题进行对比,为E线图情的发展建设以及用户使用方向做好基础数据调查。
一、论坛热点挖掘概述
话题检测与跟踪(Topic Detection and Tracking) 是指从待检测的新闻文本流中识别出新的话题或是已知某个话题相关报道从后续报道中识别出此话题的相关联报道[1]。热点事件的发现与跟踪项目开始于1997年。在DARPA支持下, 1998年开始,美国标准技术研究所(NIST)每年都要举办TDT国际会议,并进行相应的系统评测[2]。帖子中的关键词反映了发帖人的重点,在帖子线索中关键词传递的多少反映了该关键词的影响程度[3]。尹相旭、张更平、李晓菲等学者以情报学核心期刊所载的论文为研究对象,采用词频分析法对1999~2008年9种情报学杂志所发表的论文中的关键词进行分析,探讨了当前情报学研究的现状[4]。李雁行学者利用词频分析法对2005年至2014年中我国高校网络舆情研究领域论文的关键词进行了统计,分析了十年来高校网络舆情研究的热点及阶段性成果[5]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/936.html

好棒文