先秦古籍的语言网络节点相似度计算1研究1(附件)

[目的]探求基于先秦古籍的语言网络节点相似度计算的最优解。[方法]将“词汇+词性”作为节点、利用Pajek构建基于先秦古籍的语言网络,再用CN、Jaccard、Salton和CDSim算法抽取网络中任务词的目标相似词表,而后用本文设计的评价系统进行结果的对比与分析,验证算法的可行性并对比得出基于先秦古籍的语言网络节点相似度计算的最优解。[结果]在评价结果的具体数值上,四种算法的优劣排序为CDSim>Salton>Jaccard>CN,且CDSim的结果要明显好于其它的三种方法。[局限]未区分入链邻居节点和出链邻居节点。[结论]基于先秦古籍的语言网络节点相似度计算的最优解是基于贡献度折扣的词汇相似度算法,即CDSim算法。
目录
摘要 1
关键词 1
Abstract 1
Keywords 1
引言 2
一、相关研究综述 2
(一)词汇相似 2
(二)面向网络的词汇相似度计算方法 3
1.基于共同邻居节点信息的语言网络节点相似度计算 3
2.基于全局特征的语言网络节点相似度计算 5
(三)基于词汇相似度的评价工作 6
二、研究方法及改进 7
(一)研究改进及创新点 7
(二)研究方法 7
三、数据选定及数据预处理 8
(一)数据选定 8
(二)语言网络构建与任务词选取 8
四、研究思路及评价标准制定 10
(一)研究思路 10
(二)相似度评价标准 11
1.Top Line制定 11
2. 评价指标选取 12
五、研究结果及分析 12
(一)名词相似词的抽取及评测结果横向分析 12
(二)动词相似词的抽取及评测结果横向分析 14
(三)不同词性相似词的实验结果纵向分析 16
六、研究结论及建议 18
(一)研究结论 18
(二)研究不足与建议 18
致谢 19
图1 语言网络节点相似度实验基本流程 11
表1 语料处 *好棒文|www.hbsrm.com +Q: ^351916072^ 
理对应表 9
表2 语料中词频排序前20的词汇 9
表3 任务词分布基本信息表 10
表4 任务词“罪/n”的目标词抽取结果 12
表5 任务词“百姓/n”的目标词抽取结果 14
表6 任务词“入/v”的目标词抽取结果 15
表7 任务词“事/v”的目标词抽取结果 15
表8 四种算法总体评价结果——以名词为例 17
表9 四种算法总体评价结果——以动词为例 17
基于先秦古籍的语言网络节点相似度计算研究
引言
引言
自复杂网络这一名词被提出以来,相关的研究发展迅猛,相应的网络节点相似度计算方法在多学科领域内被广泛应用。词语是构成言语的基础,其间的复杂关系一直是研究的重心,不仅如此,如何呈现这种关系也是实际应用中需要斟酌的问题。当然,研究发展至此,已经有研究团队用数值来对此进行度量,而前文提到的词汇相似度计算研究便是其中一种方法。由于复杂网络是一门刚刚兴起的研究方法,语言网络的研究主要还停留在网络的宏观层面,集中于对网络现象和特征的发掘。目前,在自然语言处理、语言学、信息处理等相关领域的研究已经开始意识到这个问题,语言网络内部结构包含了丰富的信息,其结构的深入挖掘具有更大的价值,在语言网络内部结构的研究中节点相似度是其他许多研究任务的基础。
除此之外,随着数字化进程的推进,古文献资源数目大量增长,其带给科研人员乃至社会普通大众在获取知识等方面的便利性有目共睹。作为古文献资源中的中坚力量,古籍资源的相关研究也正受领域中科研人员的重视。
综上所述,根据语言相似度处理研究的整体状况,结合当下复杂网络中语言网络的研究趋势,本文将以先秦诸子,即先秦典籍为语料研究对象,通过文献计量和调研,在梳理了词汇相似度这一概念、厘定了本研究中语言网络节点的内涵与外延,并了解了对语言网络中节点相似度计算方法的研究现状后,通过利用Pajek工具制作的语言网络及遴选后的四种计算方法对先秦典籍语料库中不同词性词汇的相似度进行了考察,而后对四种方法的表现从不同维度作进一步的分析,最终总结了本实验的不足并判断了未来可能的发展趋势,以期为汉语词汇相似度研究提供更精准的研究思路。
一、相关研究综述
(一)词汇相似
在数字化信息数量庞大且持续增长的今天,如何高效精准地对其进行组织、管理与利用已经成为领域研究者共同努力的方向。自然语言处理便是解决这一难题的必经之路。词汇作为自然语言处理中的最小语义单元,针对词汇展开的、以探求词汇间关联程度的相关研究也已经形成了不少成果,语义相似度计算便是其中最直接的一种度量方式。但究其根本,所谓的词汇相似该如何界定?对于词汇相似度之前的这个根本问题,根据George A. Miller(1991)[1]的研究可知,两个词汇相似的最理想状态便是这两个词在不影响句义表达的前提下,在任意一种文本环境、上下文语境中都可实现完美替换。然而在实际语词集合中,很少有词汇能够满足随时被替换而不影响任意文本的表达这一条件,且人们在实际应用中,也几乎无法做到完全摈弃自我的主观臆想对两个词汇的相似程度作出客观判断,也就是说,我们很难就词汇相似及词汇相似度这两个问题厘定一个客观的标准。
尽管如此,这并不妨碍我们就实际的问题作出切合应用环境的规定。例如Dekang Lin等人[2]从信息理论的角度重点论述了词汇语义相似度的概念,其认为两个词汇的相似度需要分别考虑二者的共性与个性特征,即一方面而言,两者共性交叉越大,则其间的相似度越高,另一方面而言,两者的个性之和越大,则其间的相似度越低。也就是说,只有当两个词汇在各自的描述特征越多的前提下表现出的共性越多才能得出二者相似度越高的结论,除此之外,Lin规定词汇相似度的区间在[0,1]之间,当两个词汇完全相同时,相似度为1。刘群等人[3]将Dekang Lin对词汇相似度的这一研究成果应用于知网这一检索数据库中,认为两个词汇的相似度是它们在不同的上下文中可以互相替换且不改变文本内容中句法语义结构的可能性大小。但江敏等人[4]在测试刘群等人的软件成果时,发现假如在某个词汇a与其反义词b及其近义词c之间的相似度均很高的情况下,用c替代b会使语义倾向发生变化而破坏了原本的文本表达。因此,江敏等人将词汇相似度区间改进为[1,1]。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/528.html

好棒文