（2018 -NIPS）SimplE embedding for link prediction in knowledge

最新推荐文章于 2025-07-25 08:00:00 发布

原创

最新推荐文章于 2025-07-25 08:00:00 发布 · 1.4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #机器学习 #人工智能

本文介绍了SimplE，一种在知识图谱链接预测中表现优秀的简单嵌入模型，通过解决CP分解中实体嵌入的独立性问题，实现了完全表达和参数共享背景知识。实验结果证明其性能超越先进方法。

（2018 -NIPS）SimplE embedding for link prediction in knowledge

本文为阅读论文过程中的个人总结加上翻译内容构成。

摘要

介绍知识图谱，知识图谱补全（链接预测），并说明了张量分解方法（Tensor factorization approaches）对于这类问题有着显著的效果，其中正则多元分解（ Canonical Polyadic (CP)）是最早的张量分解方法，但CP是有局限性的，它学习了每个实体的两个独立的嵌入向量，而它们实际上是绑定的。我们提出了一个简单的CP增强(我们称之为simpIE)，以允许独立地学习每个实体的两个嵌入。简单算法的复杂度随嵌入的大小线性增长。通过simpleare学习到的嵌入是可解释的，某些类型的背景知识可以通过权重绑定被纳入这些嵌入。我们证明了simple是完全表达的，并为充分表达推导了其嵌入的大小的界限。我们通过经验证明，尽管simplet很简单，但它的性能优于几种最先进的张量分解技术。

GitHub地址：https://github.com/Mehran-k/SimplE.

1. 介绍

第一段介绍，知识图谱补全是在统计关系学习（SRL）的框架下，看成在现有三元组的基础上预测新的三元组的过程。

第二段介绍张量分解被证明是一种有效的SRL方法，预测的评判标准是将三元组作为输入，输出一个概率代表该三元组是否正确的概率。

张量分解的第一种方法是正则多元(CP)分解。该方法为每个关系学习一个嵌入向量，为每个实体学习两个嵌入向量，当实体是头时使用一个，当实体是尾时使用一个。一个实体的头部嵌入是独立于(并且与)其尾部嵌入无关的。这种独立性导致CP在KG补全中表现不佳。本文提出了一种基于CP的张量分解方法，解决了实体的两个嵌入向量之间的独立性问题。由于模型的简单性，我们称其为simple (SimpleEmbedding)。

本文证明了：

可以被认为是一个双线性模型
是完全表达的
能够通过参数共享将背景知识编码到它的嵌入中
尽管原理很简单，但在经验上表现得非常好。我们还讨论了其他现有方法的几个缺点
证明了现有的一些编码方法并不能完全表达，并找出了表达的严格限制
证明了ComplEx是一种最先进的链路预测方法，涉及到冗余计算

2. 背景和符号

定义了一些符号，例如：（具体定义建议看原文，更清楚，这里只列出定义了哪些）

小写字母表示向量，大小字母表示矩阵，向量拼接的公式，向量乘积的公式： $\left\langle v_{h}, v_{r}, v_{t}\right\rangle$
知识图谱头实体、尾实体、关系的集合定义、正确三元组集合、错误三元组集合
定义对称关系、非对称关系以及传递关系、以及关系的倒数

3. 相关工作

普通嵌入方法

定义：头实体为简单向量 $v_{e} \in \mathbb{R}^{d}$ ，尾实体为 $v_{r} \in \mathbb{R}^{d^{\prime}}$ 以及两个矩阵： $P_{r} \in \mathbb{R}^{d^{\prime} \times d}$ 和 $Q_{r} \in \mathbb{R}^{d^{\prime} \times d}$ 。