TransH

最新推荐文章于 2023-09-02 03:58:13 发布

vincent_hahaha

最新推荐文章于 2023-09-02 03:58:13 发布

阅读量1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： trans系列

本文链接：https://blog.youkuaiyun.com/vincent_duan/article/details/117417124

trans系列专栏收录该内容

10 篇文章

订阅专栏

TransH模型针对TransE在处理复杂关系时的局限性进行了改进，提出了实体在不同关系下有不同的表示。通过超平面和法向量，实体向量被映射到关系对应的超平面上，使得不同实体在不同关系下有独特表示。模型通过损失函数和软约束进行训练，确保实体向量归一化、关系向量与法向量正交等。训练过程中采用margin-based ranking function，并调整负例生成策略，降低假负例出现。TransH的优化增加了模型复杂性，但增强了对知识图谱中复杂关系的建模能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了解决TransE模型在处理一对多、多对一、多对多复杂关系时的局限性，TransH模型提出让一个实体在不同的关系下拥有不同的表示。如下公式所示，对于关系 $r$ ，TransH模型同时使用平移向量 $r$ 和超平面的法向量 $w_r$ 来表示它。对于一个三元组 $(h, r, t)$ , TransH首先将头实体向量 $h$ 和尾实体向量 $r$ ，沿法线 $w_r$ ，映射关系 $r$ 对应的超平面上，用 $h⊥h_\perp$ 和 $t⊥t_\perp$ 表示如下:
$h_\perp=h-w_r^\top hw_r \\ t_\perp = t - w_r ^ \top tw_r$
需要注意的是，由于关系r:可能存在无限个超平面，TransH简单地令r与w_r,近似正交来选取某一个超平面。TransH 使不同的实体在不同的关系下拥有了不同的表示形式，但由于实体向量被投影到了关系的语义空间中，故它们具有相同的维度。

我们可以通过先下面这图来进一步加深对这个超平面概念的理解:
在这里插入图片描述

根据上图，我们可以得一个三元组元素的数学表示，h和t分别代表头结点和尾节点的向量，而关系超平面由平面的法向量 $w_r$ 以及平面上的平移向量 $d_r$ 表示。

具体的算法实现，对于一个三元组，我们首先需要将h和t映射到我们的超平面上，从而得到映射向量 [公式] 和 [公式] , 具体公式如下：
$h_\perp=h-w_r^\top hw_r \\ t_\perp = t - w_r ^ \top tw_r$

其中简单说明下 $wr⊤hwrw_r^\top h w_r$ 的含义，这里 $wr⊤h=∣w∣∣h∣cosθw_r^\top h = | w| |h|cos\theta$ 表示 $h$ 在 $w_r$ 方向上投影的长度（带正负号），乘以 $w_r$ 即 $h$ 在 $w_r$ 上的投影。

得到投影之后，我们就可以根据下面的score function来求得三元组的差值：
$f_r(h,t) = || (h-w_r^\top hw_r) +d_r-(t - w_r ^ \top tw_r) ||_2^2$
这个公式中所期望的结果为，如果三元组关系是正确的，则结果数值较小，反之则结果数值较大。

为了实现上述所期望的结果，作者引入了margin-base ranking function 作为损失函数来训练模型：
$\mathcal{L}=\sum_{(h,r,t) \in \Delta} \sum_{(h^\prime,r^\prime,t^\prime) \in \Delta _{(h^\prime,r^\prime,t^\prime)}} [f_r(h,t) + \gamma -f_{r^\prime}(h^\prime + t^\prime) ]_+$
其中， $[x] +$ 看做 $m a x (0, x)$ ， $Δ\Delta$ 表示正确三元组的集合， $Δ′\Delta ^\prime$ 表示负例集合， $γ\gamma$ 为margin值用于区分正例和负例。这个loss通过Mini-SGD进行训练，需要强调的一点是，训练过程中，需要让 $f_r(h,t)$ 尽可能的小， $fr′(h′,t′)f_{r^\prime}(h^\prime,t^\prime)$ 尽可能大。

除此之外，在最小化loss function的过程中，模型还需要遵循三个软约束原则：
$\forall e \in E, ||e||_2 \leq 1, // scale (1) \\ \forall r \in R, |w_r^\top d_r| /||d_r||_2 \leq \epsilon, //orthogonal (2)\\ \forall r \in R, ||w_r||_2=1,//unit normal vector (3)$
公式一是保证所有实体的embedding都归一化。
公式二则用于保证 $w_r$ 和 $d_r$ 正交垂直，保证 $d_r$ 在超平面上。
公式三则保证法向量的模为1。

为了体现上面三个约束条件，需要对loss function进行修改，加上对公式一和公式二的约束：
$\mathcal{L} = \sum_{(h,r,t) \in \Delta} \sum_{(h^\prime,r^\prime,t^\prime) \in \Delta _{(h^\prime,r^\prime,t^\prime)}} [f_r(h,t) + \gamma -f_{r^\prime}(h^\prime + t^\prime) ]_+ + C \left\{ \sum _{e \in E} \left[ \left \| e\right \| _2^2 -1 \right ] _+ + \sum_{r \in R}\left [ \frac {(w_r^\top d_r)^2}{\left \| d_r \right \| _2^2} - \epsilon ^2 \right ] _+ \right\} \\(4)$
其中C表示软约束的权重，它也是训练过程中的一个超参数。

而公式三则是在每次Mini-SGD后，对 $w_r$ 结果进行归一化实现。

最后，TransH与TransE还有一点不同之处，在于负例的生成。现实中的知识图谱不完整，需要减少假负例（即替换了一个节点后的三元组，恰好是整个知识图谱中存在的另一个三元组）的出现，因此需要根据头尾节点关系，进行节点替换，比如，对于一对多的关系，我们更多的替换头结点而不是尾节点，这样才能避免假负例出现的情况，具体的标准如下:

对于一个关系 $r$ , 我们首先要统计两个数值，即这个关系每个头结点平均对应的尾节点数，记做 $t p h$ ；及这个关系每一个尾节点平均对应的头节点数，记做 $h p t$ 。最后通过公式 $p=tphtph+hptp=\frac{tph}{tph+hpt}$ 来表示头结点被替换的概率，而尾节点替换的概率为 $1 - p$