面向知识图谱的链接预测方法的研究与实现(附件)

摘要:知识图谱是将事实抽象成实体-关系-实体三元组,用以结构化的存储、表述现实世界,链接预测是一种推理不完整网络的缺失链接或预测未来可能存在的链接的方法,面向知识图谱的链接预测研究有重要意义。目前,对于知识图谱的链接预测主要通过知识表示学习的方法实现,知识表示学习能够提高计算效率并有效缓解数据稀疏问题,在知识图谱的补全、关系抽取等方面取得较好结果。本文主要研究了知识表示学习中的翻译模型,实现了TransE、TransH、TransR三个模型,总体达到参考论文中的准确率,继而对三种模型进行了归纳比较,并对知识表示学习目前存在的问题进行分析,对知识表示学习的应用前景进行展望。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1 知识表示学习研究现状2
1.1国内外研究现状2
1.2本文贡献3
2 预备知识4
2.1知识表示学习基本概念4
2.2数据集4
2.3梯度下降法5
2.4最大间隔法5
3 本文工作6
3.1 多关系数据的翻译嵌入(Translating Embedding)—— TransE模型 6
3.1.1提出背景6
3.1.2模型概述6
3.1.3实验7
3.2 基于超平面的翻译(Translating on Hyperplanes)—— TransH模型7
3.2.1提出背景7
3.2.2模型概述7
3.2.3实验8
3.3 实体关系嵌入(Entity and Relation Embeddings)——TransR模型 8
3.3.1提出背景8
3.3.2模型概述8
3.3.3实验9
3.4分析比较9
3.4.1模型性能比较9
3.4.2 TransR初始化方法分析10
3.4.3 TransH构造负例方法分析11
4 总结与展望12
4.1存在问题12

 *好棒文|www.hbsrm.com +Q: ^351916072* 
4.2应用前景12
致谢13
参考文献13
面向知识图谱的链接预测方法的研究与实现
引言
引言
互联网时代,百度、谷歌等搜索引擎已经成为人们获取知识的关键工具。传统搜索引擎根据用户输入的字符串与搜索引擎抓取的大规模进行对比,根据字符串匹配程度和页面自身的重要性进行排序后反馈给用户。可想而知,传统搜索引擎只是通过机械的匹配字符串的方法将结果返回给用户,结果不够准确,往往不能够理解用户的真正意图。所以,知识图谱应运而生。知识图谱将现实世界中的事物理解为实体,实体与实体之间通过关系连接,通过实体关系实体表示现实世界中的一个事实[1]。当用户进行搜索时,搜索引擎将关键字理解为一个实体,而不是字符串,这样通过在知识图谱中搜索相关实体,即可得到实体信息及其他相关信息。例如,当用户搜索“爱因斯坦”的时候,页面右侧同时会显示爱因斯坦的出生年月、子女等信息,由此,知识图谱使用户能够得到更准确的信息。由于知识图谱在搜索中体现了强大的功能,各搜索引擎开始构建自己的知识图谱,然而在知识图谱的构建过程中,大部分知识来源主要是百度百科、维基百科等半结构化的知识,信息并不全面,那么,在知识图谱的构建过程中,知识图谱的补全就尤为重要了。知识图谱的补全类似于复杂网络的链接预测,但是要复杂很多,因为知识图谱的关系多种多样,知识图谱的实体类型也不尽相同[2]。目前面向知识图谱的链接预测方法主要以知识表示学习为主。通过知识表示学习对知识图谱进行链接预测,在知识图谱的构建、关系抽取、实体链指等方面具有深刻意义。
1 知识表示学习研究现状
国内外研究现状
BordesA 等[3]在2011年提出了结构表示(SE)模型,该模型将每个实体用d维向量表示,将关系表示为两个d×d维的矩阵M1,M2,定义损失函数:
frh,t=M1h?M2t1
其中x1是x的1范数。将两个实体分别映射到不同的矩阵空间中,通过求两个向量在空间中的最小距离来确定最佳的关系矩阵、实体向量,但是由于两个实体分别映射到不同的关系空间中,协同性较差。
Socher R 等[4]在2013年提出了单层神经网络(SLM)模型,该模型是SE模型的改进,定义目标函数:
frh,t=urTgM1h+M2t
其中urT?Rk是关系r的表示向量,g()是tanh函数,主要是通过非线性操作,增加实体与关系之间的微弱联系,但是计算效率较SE有所增加。
Bordes A 等[5,6]在2014年提出了语义匹配能量(SME)模型,该模型为了强化实体、关系之间的语义联系,定义若干投影矩阵,定义了两种评分函数:
线性形式:
frh,t=M1h+M2r+b1TM3t+M4r+b2
双线性形式:
frh,t=M1h?M2r+b1TM3t?M4r+b2
其中?表示按位相乘。
Jenatton R 等[7,8] 在2012年提出了隐变量(LFM)模型,该模型定义评分函数:
frh,t=hTMrt
其中Mr∈Rd×d,是关系的r的变化矩阵。
Socher R 等[4] 在2013年张量神经网络(NTN)模型,用双线性张量取代神经网络中的线性变换层,定义目标函数:
frh,t=urTghMrt+Mr,1h+Mr,2t+br
其中Mr?Rd×d×k是一个三阶张量,Mr,1,Mr,1?Rd×k是关系r的投影矩阵。
BordesA 等[9] 在2012年受词向量的平移不变性启发,提出了TransE模型,模型简单,参数少,效率高,能够取得较好效果,引起了广泛关注,在此之后,很多研究人员相继对模型进行相关改进。
Wang Z 等[10]在2014年提出了TransH模型,在TransE基础上增加了超平面的概念,改进了TransE在一对多,多对一,多对多关系上的表现。
Lin Y 等[11]在2015年提出了TransR模型,将实体、关系定义在不同的向量空间中,进一步提高了结果的正确率。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/653.html

好棒文