论文简读-TransE-《Translating Embeddings for Modeling Multi-relational Data》

本文介绍TransE模型,一种将知识图谱实体与关系嵌入到低维向量空间的方法。通过翻译操作模拟实体间关系,定义基于边界的目标函数进行训练。在多个数据集上进行实验,展示了其在链接预测任务上的优秀表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文简读-TransE: Translating Embeddings for Modeling Multi-relational Data

1. 简介概括

本文研究的是将知识图谱中实体和关系嵌入(embedding)至低维向量空间的问题,本质上是知识图谱表示学习问题。根据翻译模型,提出了名为TransE的实体与关系表示方法,将实体与实体的关系看成是翻译操作。

2. 算法

2.1. 损失函数

给出一个知识图谱中的三元组(h,r,t)∈S(h, r, t) \in S(h,r,t)S,其中h、t∈E,r∈Rh、t \in E, r \in RhtE,rRE、RE、RER分别表示知识图谱中的实体集合与关系集合, SSS表示知识图谱中三元组集合。在TransE模型中,h、r、th、r、thrt均采用长度为kkk的1维向量进行表示,并且假设对于任意三元组(h,r,t)(h, r, t)(h,r,t),满足h+r≈th+r≈th+rt,根据该假设定义基于边界(margin)的目标函数:

L=∑(h,r,t)∈S∑(h′,r,t′)∈S(h,r,t)′[γ+d(h+r,t)−d(h′+r,t′)]+(1)L=\sum_{(h,r,t) \in S}\sum_{(h',r,t') \in S_{(h,r,t)}'}[\gamma+d(h+r,t)-d(h'+r,t')]_{+} \tag{1}L=(h,r,t)S(h,r,t)S(h,r,t)[γ+d(h+r,t)d(h+r,t)]+(1)

其中d(x,y)d(x,y)d(x,y)表示向量xxxyyy的距离,可以是曼哈顿距离(L1范式),也可以是欧氏距离(L2范式);γ\gammaγ表示边界(margin)超参数;[x]+[x]_+[x]+表示当x<0x<0x<0时取0值。

S(h,r,t)′={(h′,r,t)∣h′∈E}∪{(h,r,t′)∣t′∈E}(2)S'_{(h,r,t)}=\{(h',r,t)|h' \in E\} \cup \{(h,r,t')|t' \in E\} \tag{2}S(h,r,t)={(h,r,t)hE}{(h,r,t)tE}(2)

S(h,r,t)′S_{(h,r,t)}'S(h,r,t)表示替换了三元组头实体或者尾实体的三元组(corrupted triplets)所组成的集合。替换后的三元组有可能仍然属于该知识图谱,作者对替换后的三元组进行检测(所谓的filter),留下真正的corrupted triplets(也就是非知识图谱知识的三元组)

2.2. TransE的训练算法伪代码:

TransE的训练算法伪代码

3. 实验

3.1. 数据集

数据集名称简称statistics
WordnetWN\
Freebase15kFB15k592213个三元组,14951个实体以及1345种关系
Freebase1MFB1M1700万个三元组,100万个实体以及2.5万种关系

3.2. 链接预测

链接预测任务的实验结果表
其中MEANRANKM_{EAN} R_{ANK}MEANRANK表示正确的关系链接在平均rank,该指标越小越好;HITS@n(%)H_{ITS}@n(\%)HITS@n(%)表示正确的关系链接出现在预测排名前n个结果中的概率,该指标越大越好。

4. conclusion

本文提出了一种学习知识图谱嵌入的新方法,实验在两个不同的数据集上表现出色,但目前不明确TransE是否能够充分地表示1-n, n-1,n-n等关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

六娃_lw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值