社会标签的中文图书自动分类算法实证研究
摘要:随着web2.0技术的发展,网络信息总量急剧增长,有效的利用和组织这些丰富的信息资源成为当前的研究热点。基于豆瓣网上中文图书的社会标签,利用一种“内核受控,外壳非控”的分类模式对中文图书分类进行了实证研究。首先,使用八爪鱼采集器从豆瓣网上抓取1476本经济管理类图书的信息及标签,并通过OPAC,获取这些图书的主题词,对这些社会标签和主题词进行对比分析,发现社会标签不利于图书分类的一些标签质量问题。然后,利用Dice测度构建主题词与社会标签的概念空间,以达到使用主题词来对社会标签进行规范的目的。最后,使用了SVM算法来检验分类效果。实验结果表明通过建立“主题词-社会标签”概念空间确实提高了社会标签的规范程度。通过实证研究发现如果对社会标签进行合适的处理,可以有效地提高社会标签在信息组织中的利用率。
目录
摘要 2
引言
社会标签是Web2.0环境下,用户参与到信息发现和管理、内容揭示和共享的信息组织的一种新方法。近年来,国内和国外的学者围绕社会标签的研究主要集中在社会标签的应用,社会标签系统的新方法、新技术和新算法以及与传统知识组织体系的比较研究等方面。随着网络大众越来越多的参与网络信息资源的创建、组织和传播,网络信息总量急剧增长,如何让用户利用这些丰富的社会标签资源成为当前的研究热点。何琳等[1]借鉴情报学原理,提出一种“内核受控,外核非控”的中文图书自动分类模式。即通过建立“社会标签–主题词”概念空间,实现利用题词对标签词的规范控制,基于转换后的主题词对中文图书进行自动分类,进而提升基于社会标签的信息组织能力。本文应用此方法,对一批数据进行处理,以实现对中文图书的自动分类。
一、相关研究综述
社会标签在文本自动分类中的应用,引起了很多学者的研究兴趣:一些研究了其有效性的验证及算法改进、并预测了将来的研究方向及存在的问题。
(一)社会标签的规范控制
自从社会标签产生以来,研究人员就试图将这种“用户产生的标引词”用于文本分类中,围绕社会标签的规范控制开展了很多研究。靳延安等[2]从情报检索的角度阐述了对社会标签进行规范控制的重要性。目前,对社会标签进行规范控制处理的研究大致可以分为两个方面:挖掘社会标签内部的语义关系;将社会标签与传统的知识
*好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2
组织系统进行融合。
1、社会标签的语义关系挖掘
由于社会化标注存在着标签同义、多义、缺乏层次等不足,影响了社会化标注效用的充分发挥,并导致了目前标签网站中内容重复利用和兴趣共享程度较低。目前研究的主要思路都是一方面是从标注系统中提取出浮现语义;另一方面是借助常识工具增加标签语义,提高对标签的正确理解,减少社会化标注系统中的混乱[3]。
2、社会标签与传统知识组织系统的融合
由于社会化标注所形成的大众分类与传统的分类互有利弊,因此,将两者进行融合的思想便应运而生。融合方法的主要思路是利用规范的受控词汇对不规范的社会标签词进行约束,从而提高社会标签的质量。吴丹等[4]研究了社会标签与传统主题词等的一些差异。社会标签较传统的图书馆对图书标注形成的受控主题词相比,虽然社会标签这一概念出现的时间远短于主题标引,但究其本质,二者都是以词为单位且以揭示文献内容与形式特征为目的元数据创建方式。
(二)基于社会标签的自动分类研究
Munk 等[5]指出,社会标签的本质是用户自主创造的、描述性的元数据在文本的标注和分类中的应用。这表明社会标签的一个具体应用是用于文本的自动分类。关于文本分类,刘怀亮[6]等提出基于知网语义相似度计算方法的文本相似度加权算法,但该算法复杂度较高。李湘东等[7]也提出类似方法,借助《知网》计算待分类文本与各领域关键词集的语义相似度,将短文本的分类性能有效的提高。基于社会标签的自动分类研究,则是主要集中在探究其有效性验证研究和算法改进研究两个方面。
1、社会标签用于自动分类的有效性验证研究
社会标签产生于Web2.0,能够体现网络环境下信息资源的特点。因此,从理论上讲,将社会标签应用于网络信息资源的自动分类具有可行性。已有学者对其进行实证研究,已有学者对其进行实证研究,如Sun 等[8] 以博文为研究对象,对比了基于社会标签、社会标签结合博文摘要以及博文摘要三者的分类结果。最终指出,基于社会标签结合博文摘要的分类精度最高,而基于社会标签的分类效果也比基于博文摘要的分类效果要好。
2、基于社会标签的自动分类算法改进研究
虽然社会标签在灵活性上要远远优于传统的知识组织系统,但从目前的实践来看, 社会标签在文本自动分类中的应用效果还不是十分理想。对此,不少学者也做了相关研究。丛鲁丽[9]将社会标签应用到中文博客的分类中,提出一种基于社会标签的新型分类算法。卢露等[10]提出基于标签的博客文章分类方法,该方法将文本分类问题转化为图优化问题,并提出一种利用迭代算法计算图中节点属于各类别的概率值,有效的提高了博文的分类性能。
综上,社会标签的规范控制研究充分地揭示了社会标签的语义内涵,鉴于社会标签属于自然语言,方便与传统知识组织系统的受控语言进行融合,经过严格的受控语言的约束,社会标签的标注质量明显得到了提高。而社会标签的自动分类研究则表明在文本分类领域,对网络信息资源的自动分类具有可行性。并且,也证明社会标签的分类效果可以通过提出一些新型自动分类算法来提高。因此社会标签与中文图书同属自然语言,语义关联较紧密,但以往的分类效果普遍不高,标签本身的规范性和严密性都有待于加强。基于此,何琳等[1]提出一种新型的“内核受控,外壳非控”的分类模型,搭建了“社会标签主题词”概念空间,来实现对中文图书的自动分类。本文使用此方法对一批标签进行了处理,并实现了对中文图书的自动分类。
二、数据及方法
在对中文图书进行自动分类之前,首先对标注图书的社会标签的特征进行提取,分析这些特征,然后使用主题词对标签进行规范,构建分类模式的核心“社会标签主题词”概念空间。
(一)数据的收集及预处理
目录
(二)方法
本文采用的方法主要是何琳等[1]提出的“内核受控,外壳非控”的分类模型,该模型利用主题词对社会标签进行规范,构建“主题词社会标签”概念空间,以替换不规范的社会标签,进一步提高分类效果。然后,利用SVM算法对中文图书自动分类,检验社会标签对中文图书自动分类的效果。
此分类模式完整的叙述了“内核受控,外壳非控”的完整含义,以流程图的方式将模式过程可视化,简洁明了的描述了每一步骤,如图1所示:
图1 “内核受控,外壳非控”的分类模式示意图
三、实证研究
(一)社会标签的统计分析
目录
摘要 2
引言
社会标签是Web2.0环境下,用户参与到信息发现和管理、内容揭示和共享的信息组织的一种新方法。近年来,国内和国外的学者围绕社会标签的研究主要集中在社会标签的应用,社会标签系统的新方法、新技术和新算法以及与传统知识组织体系的比较研究等方面。随着网络大众越来越多的参与网络信息资源的创建、组织和传播,网络信息总量急剧增长,如何让用户利用这些丰富的社会标签资源成为当前的研究热点。何琳等[1]借鉴情报学原理,提出一种“内核受控,外核非控”的中文图书自动分类模式。即通过建立“社会标签–主题词”概念空间,实现利用题词对标签词的规范控制,基于转换后的主题词对中文图书进行自动分类,进而提升基于社会标签的信息组织能力。本文应用此方法,对一批数据进行处理,以实现对中文图书的自动分类。
一、相关研究综述
社会标签在文本自动分类中的应用,引起了很多学者的研究兴趣:一些研究了其有效性的验证及算法改进、并预测了将来的研究方向及存在的问题。
(一)社会标签的规范控制
自从社会标签产生以来,研究人员就试图将这种“用户产生的标引词”用于文本分类中,围绕社会标签的规范控制开展了很多研究。靳延安等[2]从情报检索的角度阐述了对社会标签进行规范控制的重要性。目前,对社会标签进行规范控制处理的研究大致可以分为两个方面:挖掘社会标签内部的语义关系;将社会标签与传统的知识
*好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2
组织系统进行融合。
1、社会标签的语义关系挖掘
由于社会化标注存在着标签同义、多义、缺乏层次等不足,影响了社会化标注效用的充分发挥,并导致了目前标签网站中内容重复利用和兴趣共享程度较低。目前研究的主要思路都是一方面是从标注系统中提取出浮现语义;另一方面是借助常识工具增加标签语义,提高对标签的正确理解,减少社会化标注系统中的混乱[3]。
2、社会标签与传统知识组织系统的融合
由于社会化标注所形成的大众分类与传统的分类互有利弊,因此,将两者进行融合的思想便应运而生。融合方法的主要思路是利用规范的受控词汇对不规范的社会标签词进行约束,从而提高社会标签的质量。吴丹等[4]研究了社会标签与传统主题词等的一些差异。社会标签较传统的图书馆对图书标注形成的受控主题词相比,虽然社会标签这一概念出现的时间远短于主题标引,但究其本质,二者都是以词为单位且以揭示文献内容与形式特征为目的元数据创建方式。
(二)基于社会标签的自动分类研究
Munk 等[5]指出,社会标签的本质是用户自主创造的、描述性的元数据在文本的标注和分类中的应用。这表明社会标签的一个具体应用是用于文本的自动分类。关于文本分类,刘怀亮[6]等提出基于知网语义相似度计算方法的文本相似度加权算法,但该算法复杂度较高。李湘东等[7]也提出类似方法,借助《知网》计算待分类文本与各领域关键词集的语义相似度,将短文本的分类性能有效的提高。基于社会标签的自动分类研究,则是主要集中在探究其有效性验证研究和算法改进研究两个方面。
1、社会标签用于自动分类的有效性验证研究
社会标签产生于Web2.0,能够体现网络环境下信息资源的特点。因此,从理论上讲,将社会标签应用于网络信息资源的自动分类具有可行性。已有学者对其进行实证研究,已有学者对其进行实证研究,如Sun 等[8] 以博文为研究对象,对比了基于社会标签、社会标签结合博文摘要以及博文摘要三者的分类结果。最终指出,基于社会标签结合博文摘要的分类精度最高,而基于社会标签的分类效果也比基于博文摘要的分类效果要好。
2、基于社会标签的自动分类算法改进研究
虽然社会标签在灵活性上要远远优于传统的知识组织系统,但从目前的实践来看, 社会标签在文本自动分类中的应用效果还不是十分理想。对此,不少学者也做了相关研究。丛鲁丽[9]将社会标签应用到中文博客的分类中,提出一种基于社会标签的新型分类算法。卢露等[10]提出基于标签的博客文章分类方法,该方法将文本分类问题转化为图优化问题,并提出一种利用迭代算法计算图中节点属于各类别的概率值,有效的提高了博文的分类性能。
综上,社会标签的规范控制研究充分地揭示了社会标签的语义内涵,鉴于社会标签属于自然语言,方便与传统知识组织系统的受控语言进行融合,经过严格的受控语言的约束,社会标签的标注质量明显得到了提高。而社会标签的自动分类研究则表明在文本分类领域,对网络信息资源的自动分类具有可行性。并且,也证明社会标签的分类效果可以通过提出一些新型自动分类算法来提高。因此社会标签与中文图书同属自然语言,语义关联较紧密,但以往的分类效果普遍不高,标签本身的规范性和严密性都有待于加强。基于此,何琳等[1]提出一种新型的“内核受控,外壳非控”的分类模型,搭建了“社会标签主题词”概念空间,来实现对中文图书的自动分类。本文使用此方法对一批标签进行了处理,并实现了对中文图书的自动分类。
二、数据及方法
在对中文图书进行自动分类之前,首先对标注图书的社会标签的特征进行提取,分析这些特征,然后使用主题词对标签进行规范,构建分类模式的核心“社会标签主题词”概念空间。
(一)数据的收集及预处理
目录
(二)方法
本文采用的方法主要是何琳等[1]提出的“内核受控,外壳非控”的分类模型,该模型利用主题词对社会标签进行规范,构建“主题词社会标签”概念空间,以替换不规范的社会标签,进一步提高分类效果。然后,利用SVM算法对中文图书自动分类,检验社会标签对中文图书自动分类的效果。
此分类模式完整的叙述了“内核受控,外壳非控”的完整含义,以流程图的方式将模式过程可视化,简洁明了的描述了每一步骤,如图1所示:
图1 “内核受控,外壳非控”的分类模式示意图
三、实证研究
(一)社会标签的统计分析
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/904.html