知识图谱研究综述笔记

推荐导读:知识图谱Knowledge Graph Embeddings

  • 论文标题:A Survey on Knowledge Graphs:Representation, Acquisition and Applications
  • 发表期刊:IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, 2021
  • 本文作者:Shaoxiong Ji, Shirui Pan, Member, IEEE, Erik Cambria, Senior Member, IEEE,Pekka Marttinen, Philip S. Yu, Life Fellow, IEEE
  • 论文链接:https://arxiv.53yu.com/pdf/2002.00388.pdf%E2%80%8Barxiv.org

在这里插入图片描述

一、知识图谱

1.知识表示学习KRL

KRL在文献中也被称为KGE、多关系学习、统计关系学习。

  • 将其划分为以下四个方面:
    • 表示空间
      表示实体和关系
      包括点态空间、流形、复向量空间、高斯分布和离散空间
    • 评分函数
      衡量事实的合理性
      评分指标通常分为基于距离的评分函数和基于相似性匹配的评分函数
    • 编码模型(当前研究重点)
      对事实的语义交互建立模型
      包括线性/双线性模型、因子分解和神经网络
    • 辅助信息
      外部信息
      包含文本、视觉和类型信息

故开发一个新的KRL模型要回答以下四个问题:

  • 选择哪个表示空间
  • 如何衡量特定空间中元组的合理性
  • 使用哪种编码来建模关系交互
  • 是否利用辅助信息

(1)表示空间

表示学习的关键问题是学习实体和关系的低维分布式嵌入。
表示空间在编码实体的语义信息和捕获关系属性方面起着重要作用。
在开发表示学习模型时,应仔细选择和设计适当的表示空间,以匹配编码方法的性质并平衡表现力和计算复杂度。
常用方法:实值点空间(包括向量、矩阵和张量空间)。同时也使用了其他类型的空间,如复向量空间、高斯空间和流形
在这里插入图片描述

点空间

点态欧氏空间被广泛应用于表示实体和关系,在向量或矩阵空间中投影关系嵌入,或捕捉关系交互。
Trans类和NTN、HAKE均为基于距离的评价函数
HolE和ANALOGY是基于语义匹配的评价函数

  • TransE(Translating Embedding for Modeling Multi-relational Data):TransE表示d维向量空间中的实体和关系,即h,t,r∈Rd,并使嵌入遵循平移原则h + r ≈t

    • 基本思想:使head向量和relation向量的和尽可能靠近tail向量
      靠近程度用L1/L2范数来衡量它们的靠近程度
      • L1范数:假设X是n维的特征X=(x1,x2,……xn),||X||1= Σin|xi|
      • L1损失函数:也称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。它是把目标值yi和估计值f(xi)的绝对值的总和最小化
      • L2范数:假设X是n维的特征X=(x1,x2,……xn),||X||2= sqrt(Σinxi2)
      • L2损失函数:也称为最小平方误差(LSE)。它是把目标值yi和估计值f(xi)的差值的平方和最小化。一般回归问题会使用此损失,因为采用平方形式个别异常离群点对次损失函数影响较大,则L2对于异常样本比L1更为敏感,鲁棒性更差。
    • 损失函数使用了负抽样(把head实体或tail实体替换为三元组中的随即实体)的max-margin函数,使用距离来表示得分,使用距离来表示得分,L(y,y’) = max(0, margin - y + y’),其中y是正样本的得分,损失函数也可表示为L(h, r, t) = max(0, dpos - dneg + margin), 其中d = ||(head + relation) - tail||,然后使损失函数最小化。
    • 只能处理一对一的关系,不适合一对多/多对一关系。例如,有两个知识(skytree,location,tokyo)和(gundam, location, tokyo)。经过训练,“sky tree”实体向量会非常接近“gundam”实体向量。但实际上它们并没有这么多的相似性。
  • TransH(Knowledge Graph Embedding by Translating on Hyperplanes):TransH的目标是处理一对多/多对一/多对多关系,且不增加模式的复杂性和训练难度。

    • 基本思想:把关系解释为超平面上的转换操作。每个关系都有两个向量:超平面的范数向量(Wr)和超平面上的平移向量(dr)
      在这里插入图片描述
  • TransR(Learning Entity and Relation Embeddings for Knowledge Graph Completion):TransR进一步为实体和关系引入了分离空间,以解决实体和关系的单一空间不足的问题。

  • NTN(Reasoning With Neural Tensor Networks for Knowledge Base Completion):NTN通过双向线性张量神经层跨越多个维度对实体进行建模。

  • HolE(Holographic Embeddings):全息嵌入,是使用普通向量空间的语义匹配模型。

  • ANALOGY(Analogical inference for multi-relational embeddings):使用关系投影矩阵的语义匹配模型。它专注于多关系推理,为关系数据的类比结构建模。

复向量空间

嵌入复向量空间可有效模拟不同的关系连接模式,尤其是对称/反对称模式。向量表示为实向量+虚向量

  • ComplEx:ComplEx首先引入了复数向量空间,它可以捕获对称和反对称关系。Hermitian点积用于对关系、头和尾的共轭进行组合。
  • RotatE:受e=cosθ + i sinθ启发,RotatE提出了一种旋转模型,其中把复杂空间中头部到尾部实体的旋转关系视为t = h◦r,其中 ◦ 表示元素级 Hadmard 积 。旋转Hadmard乘积的引入让RotatE还可捕获反演和合成模式以及对称性和反对称性。
高斯分布

高斯分布即正态分布,高斯嵌入可以表达实体和关系的不确定性,以及多关系语义。

  • KG2E:引入高斯分布来处理实体和关系的(不确定)确定性。 作者将实体和关系嵌入到多维高斯分布 H ∼ N(μhh) 和 T ∼ N(μtt) 中。 平均向量 u 表示实体和关系的位置,协方差矩阵 Σ 模拟它们的(不)确定性。 根据平移原理,实体变换 H−T 的概率分布表示为 Pe ∼ N(μh −μtht)。
  • TransG:具有高斯分布的实体,同时它为关​​系嵌入绘制了混合高斯分布,其中关系 r 的第 m 个分量平移向量表示为ur,m=t - h ~ N(ut - uh, (σh2t2)E)
流形和群<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值