维基百科的图书情报学”主题网络研究

摘要:维基百科作为现今最全面的多语言网络百科全书,其海量的信息及其动态、开放的维基模式成为web2.0网络时代的研究热点。本文从维基百科页面的分类系统出发,以“图书情报学”为主题,采用复杂网络研究方法,利用UCINET社会网络分析软件,形成复杂网络关系图,并对复杂网络进行多角度剖析。一方面,从网络关系图探究维基模式的分类方法,及其在自由的外表下潜在的规则;另一方面,通过对网络结构、内容的分析探究图书情报学的概念组成、研究热点和未来发展趋势。
目录
摘要 3
关键词 3
Abstract 3
Key words 3
引言 4
一、社会网络分析与维基百科研究综述 4
(一)社会网络研究概况 4
(二)维基百科研究概况 4
1.宏观统计性质研究 4
2.演化规律研究 6
3.复杂网络分析 6
二、复杂网络的构建 6
(一)复杂网络的相关理论 6
1.随机网络 6
2.小世界网络 6
(二)复杂网络构建的具体步骤 7
1.数据获取 7
2.构造类别共现关系表 7
3.形成关系网络 8
三、复杂网络分析 8
(一)单模核聚类分析 8
1.单模K核聚类分析 9
2.单模kK核聚类分析 11
(二)主成分分析 13
(三)聚类效果分析 13
四、研究结论与思考 14
(一)对维基模式 14
(二)对维基百科知识组织系统研究 15
(三)对主题网络研究 15
致谢 16
参考文献 17
图1 英文维基百科文章数量变化 5
图2 UCINET数据可视化过程示意图 8
图3 2核聚类图 9
图4 6核聚类图 9
图5 13核聚类图 10
图6 38核聚类图 10
图7 45核聚类图 11
图8 1115核聚类图 11
图9 1
 *好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^* 
419核聚类图 12
图10 3815核聚类图 12
图11 主成分分析图 13
表1 维基百科宏观统计量 5
表2 聚类适合度和聚类数目关系表 13
基于维基百科的“图书情报学”主题网络研究
引言
引言
维基百科是现今最权威、应用最广泛的拥有多种语言版本的网络百科全书,同时也是一个由自由编辑者所选择的语言来书写而成的、动态的、可自由访问和编辑的全球知识体。维基百科始终以为全人类提供自由的百科全书为目标和宗旨。虽然它是全开放、自由的,但同时也是一个有组织、规范的系统。这就引起了我的思考:在自由的外表下潜在的规则是什么?这种知识组织方式如何保证内容的科学性并将近四千万的页面分类、归类?维基模式下主题概念形成的复杂网络能给我们揭示什么?
一、社会网络分析与维基百科研究综述
(一)社会网络研究概况
社会网络是为了研究社会成员之间关系而构建的个体与关系集合。目前构建社会网络主要是通过各类社交网站和社交应用,依靠用户参与与用户活动来构建关系[1]。现有技术基础上的社会网络构建分为以下三种形式:抽取人物关系、从web网页上抽取信息构建社会网络和通过纯文本构建社会网络。
社会网络分析主要包括中心性分析、凝聚子群分析、关联性分析和角色分析等。
(二)维基百科研究概况
对于维基百科的研究,目前主要的研究方向有宏观统计性质、演化规律和通过复杂网络分析探究维基模式三个方面。由于自由开放带来的系统内容和编辑者的复杂多样性使得复杂网络的思想和方法在维基百科中的运用成为未来一大研究方向。
1.宏观统计性质研究
根据维基百科实时更新的统计数据,截至2016年1月9日上午12时21分,英文版维基百科共有5051394篇文章、38197495个页面、有807791477人曾参与过编辑、上传过870637份文件、27188332位注册会员(包括1327名管理员)。全球现在共有290种语言版本的维基百科,共有超过3500万篇文章,70000多名活跃贡献者参与编辑。英文维基百科的文章数量增长过程见图1。

图1 英文维基百科文章数量变化
为了方便用户了解维基百科的演化状况,维基媒体基金会的统计站点定时发布其监控、记录的各项维基百科运行数据。该站点主要发布23项维基百科的宏观统计量,具体如表1所示。这23项统计量全面地反映维基百科演化的各个方面,直观简便。
表1 维基百科宏观统计量[2] 
表中标记“*”的统计量是可排名的统计量。
2.演化规律研究
目前存在的对维基百科演化规律的研究主要从维基百科增长机制、宏观统计量的排名情况以及宏观统计量与网络规模间的相关关系等方面入手。维基百科文章数量增长的数值模型有指数增长模型、Logistic模型、扩展的增长模型和两阶段增长模型。另外,还有对页面链接数量、用户编辑次数和文章访问次数等演化规律的研究。
3.复杂网络分析
基于维基百科的复杂网络分析从研究角度分为以下三个方面:(1)宏观层面,通过研究网络的宏观物理统计量评价网络的整体性质;(2)中观层面,通过研究网络的局部社区结构揭示某些隐藏的信息;(3)微观层面,通过研究单个实体的演化情况推测维基百科总体的发展。从数据源来看,研究的网络包括文章文章网络、语义类别文章网络和用户文章网络[3]。
本文构建并研究的网络属于语义类别文章网络。每一个词条页都会根据它的主题被划归到相应的类别下面。维基百科拥有包含了所有分类页面的索引,这个索引是其分类系统的最高级[4]。但与一般的百科全书不一样的是,维基百科的类别和文章的关系不是简单的树型关系。因为在维基百科中,一个类别下面可以有多篇文章,一篇文章也可以隶属于的若干个类别。因此可以这么说,维基百科中类别和文章的关系是有向无循环图的关系。
二、复杂网络的构建
(一)复杂网络的相关理论
在数学、物理学和社会学的科学研究中,网络被分为规则网络和复杂网络两种,而复杂网络分为随机网络、小世界网络和自相似网络。目前应用最广泛的理论有随机网络和小世界网络。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/899.html

好棒文