RLogic:从知识图学习递归逻辑规则
摘要
逻辑规则被广泛用于表示领域知识和假设,这是基于符号推理的人类智能的基础。最近,已经证明,将逻辑规则整合到常规学习任务中可以进一步提高学习性能。目前已经做出了许多尝试来从知识图(KG)自动学习逻辑规则。然而,大多数现有方法完全依赖于观察到的规则实例来定义用于规则评估的得分函数,因此缺乏泛化能力,并且存在严重的计算效率低下。RLogic定义了一个基于谓词表示学习的评分模型,而不是完全依赖规则实例进行规则评估,该模型由采样的规则实例进行训练。此外,RLogic将逻辑规则最重要的属性之一,演绎性质,融入到规则学习中,这在规则缺乏支持证据时尤为重要。为了将演绎推理深入到规则学习中,RLogic以递归的方式将大的顺序模型分解为小的原子模型。大量实验表明,RLogic在效率和有效性方面优于现有的最先进算法。
1 介绍
尽管深度学习在许多领域都取得了突破性的进步,例如语音识别[7]、图像分类[15]和机器翻译[2],但缺乏可解释性和通用性限制了其在更广泛的任务中的应用。逻辑推理旨在利用逻辑规则来获得缺失的知识,它可以提供对推断结果的见解,并允许对未观察到的对象进行简单的概括。为了克服深度学习的不足,已经做出了重大努力,将逻辑推理集成到各种实际应用的神经网络学习中,例如图像理解[1]、视觉问答[18]和KG补全[27]。
由于逻辑规则带来的潜在好处,人们越来越注意总结数据中共享的底层模式,以自动学习逻辑规则。请注意,逻辑规则是一个模式级概念,而从KG中只能直接观察到实例级证据。例如,从图1中的KG中,我们可以观察到闭合路径(规则实例),例如:
为了弥合实例级观察和模式级抽象之间的差距,规则实例的频率被广泛用于定义逻辑规则的合理性。传统方法由关联规则挖掘[12,19]为代表,其中分数定义为相应规则的规则实例总数与主体实例总数之间的比率。然后,规则挖掘过程是在规则空间中搜索并选择得分最高的规则。例如,给定图1中的KG,长度为2的规则空间用于预测头部关系 r 2 r_2 r2(hasGrandma)可以表示为树结构,并且从根到叶的每个路径对应于一个规则体。图1中可以发现两个高分规则( δ 1 \delta_1 δ1的得分为0.75,并且 δ 2 \delta_2 δ2的得分为1),它们是:
最近,提出了基于神经网络的方法[29、42、43],通过可微张量乘法序列,可以对规则实例进行软计数。他们还通过搜索规则体(或证明路径)来学习规则,这些规则体最大化了规则头的观察值(即三元组)。
尽管已经做出了许多努力来自动学习逻辑规则,但现有研究存在两个局限性。首先,大多数现有的方法完全依赖于观察到的规则实例来定义规则评估的得分函数。它们无法挖掘没有规则实例支持的规则。例如,由于缺乏支持证据,无法从图1中学习以下规则:
对于大型KG来说,规则实例的数量非常大,可伸缩性是另一个核心挑战。我们建议通过基于表示学习的模型,直接在模式层学习逻辑规则,而不是完全依赖规则实例进行规则评估。可以基于学习的谓词表示来计算规则的分数。这样,可以在没有规则实例支持的情况下评估规则。由于少量的采样规则实例足以训练此类模型,因此大大提高了效率。
第二,大多数现有方法通过假设逻辑规则相互独立来学习逻辑规则,这严重违背了逻辑规则的演绎性质。逻辑规则的演绎性质描述了组合现有规则以导出新规则的能力。例如,给定两个简短规则 δ 1 \delta_1 δ1及 δ 3 \delta_3 δ3、我们可以推断出一条很长的规则 δ 2 \delta_2 δ2。推断 δ 2 \delta_2 δ2可以分解为如图2所示的递归步骤。从前两个谓词开始,我们可以导出中间结论HasGrandma( x x x, z 2 z_2 z2)和 δ 1 \delta_1 δ1。然后,通过用派生关系替换前两个谓词,我们将规则体重写为HasGrandma( x x x, z 2 z_2 z2) ∧ hasMother( z 2 z_2 z2. y y y) 并得出最终结论: δ 3 \delta_3 δ3。由于演绎性质描述了规则之间的逻辑依赖关系,因此可以将其视为规则上的“高阶约束”,这对于我们在没有足够规则实例支持的情况下验证规则是至关重要的。例如,尽管我们由于缺乏支持证据不能依赖规则实例来计算 δ 3 \delta_3 δ3,只要我们能从图1中发现证据来支持 δ 1 \delta_1 δ1及 δ 2 \delta_2 δ2、将演绎深入 δ 2 \delta_2 δ2。为了让 δ 2 \delta_2 δ2为真, δ 3 \delta_3 δ3也被迫为真。为了将演绎性质融入规则学习中,我们建议用递归方式将大的顺序模型分解为小的原子模型来演绎推理。本文的主要贡献总结如下:
- 我们研究了逻辑规则学习问题,并提出了一种称为RLogic的新框架;
- 通过基于表示学习的模型直接在模式级别学习逻辑规则RLogic以递归的方式将大的顺序模型分解为小的原子模型,将演绎推理深入到规则学习中,这在规则缺乏支持证据时至关重要;
- 通过实验证明,RLogic在有效性和效率方面都优于现有的SOTA算法。
2 前言和问题定义
符号逻辑语言中的霍恩规则。一阶逻辑(FOL)为人工智能提供了一种重要的知识表示方式[10,32]。霍恩规则是FOL规则的一种特殊情况,它由一个连接谓词体和一个头部谓词组成。在本文中,我们感兴趣的是挖掘如下形式的链式霍恩规则。
其中 r h ( x , y ) r_h(x,y) rh(x,y)被称为规则头,箭头右边称为规则体。结合规则头和规则体,我们将Horn规则表示为 ( r h , r b ) (r_h,\textbf{r}_\textbf{b}) (rh,rb),其中 r b = [ r b 1 , . . . , r b n ] \textbf{r}_\textbf{b}=[r_{b_1},...,r_{b_n}] rb=[rb1,...,rbn] 。霍恩规则的长度定义为其规则体中出现的谓词的数量。在符号逻辑领域,关系被称为谓词。 δ 1 \delta_1 δ1, δ 2 \delta_2 δ2, δ 3 \delta_3 δ3是霍恩规则的真实示例。通过用具体实体替换霍恩规则中的变量,我们得到一个规则示例,例如 δ 2 \delta_2 δ2的规则实例为:
**知识图谱中的Horn规则。**KG,用G={ E E E, R R R, O O O}表示, 由一组实体 E E E, 一组关系 R R R 以及一组观察到的事实 O O O。每个事实 O O O 由三元组表示( e i e_i ei, r k r_k rk, e j e_j ej ), 其中 e i e_i ei, e j e_j ej ∈ E E E 且 r k r_k rk ∈ R R R。Horn规则实例在KG语言中称为闭合路径。例如,等式(1)中的 C P 2 CP_2 CP2是对应于等式(5)中的规则实例的闭合路径。请注意,逻辑规则是一个模式级概念,但从KG中只能直接观察到闭合路径形式的实例级证据。为了弥合实例级观察和模式级抽象之间的差距,我们引入了关系路径和目标关系。通过忽略封闭路径上的所有具体实体,我们可以将封闭路径分为两个部分:(1)关系路径,其通过哪两个实体 e i e_i ei, e j e_j ej可以在图上连接定义为关系 r b = [ r b 1 , . . . , r b n ] \textbf{r}_\textbf{b}=[r_{b_1},...,r_{b_n}] rb=[rb1,...,rbn] 。如图1所示,[hasMother,HasMotor,hasSon]是一条关系路径,通过该路径可以连接Dana和Gino。关系路径对应于符号逻辑中Horn规则的规则体;以及(2)目标关系,其被定义为单个关系 r t r_t rt 。 它可以通过连接两个实体 e i , e j e_i,e_j ei,ej来闭合关系路径。图1中关系hasUncle是关系路径[hasMother,HasMotor,hasSon]的目标关系。目标关系对应于符号逻辑中Horn规则的规则头。结合关系路径和目标关系,我们将封闭路径表示为 ( r t , r b ) (r_t,\textbf{r}_\textbf{b}) (rt,rb)。
**逻辑规则学习的问题。**逻辑规则学习旨在逻辑空间中分配一个似然性分数 s ( r t , r b ) s(r_t,\textbf{r}_\textbf{b}) s(rt,rb)到每个规则 ( r t , r b ) (r_t,\textbf{r}_\textbf{b}) (rt,rb)。 s ( . ) s(^.) s(.)称为分数函数。规则体路径可以闭合的比率通常用于定义得分函数(例如,关联规则挖掘[12]的置信度和NeuralLP[42]要满足的规则头三元组的百分比)。在规则提取期间,将选择topk得分最高的规则作为学习规则。
3 方法
在本节中,我们提出了一种新的框架——RLogic,用于在模式级别学习规则。我们建议通过基于表示学习的模型学习逻辑规则,而不是完全依赖规则实例进行规则评估。由于少量的采样闭合路径就足以训练这种模型,因此大大提高了效率。为了将演绎推理深入到规则学习中,RLogic以递归方式将大的顺序模型分解为小的原子模型,这对于我们在没有规则实例支持的情况下检测规则至关重要。
3.1 一种新的规则评估方法
现有的规则评估方法中,置信度是关联规则挖掘中最具代表性的一种。它被定义为目标关系可以闭合身体路径的比率。给定等式4中定义的任意规则,其置信度可计算为:
其中分子是其规则实例(即闭合路径)的数目,分母是其主体实例(即关系路径)的数量。置信度无法区分“虚假陈述”和“未知陈述”。因此,它纯粹基于观察数据来度量规则,并惩罚在未知区域中进行大量预测的规则,这使其容易受到数据偏差的影响。
建议的规则评估措施
置信度的计算完全依赖于观察到的规则实例。然而,枚举规则实例通常非常耗时。相反,我们基于规则体可以被规则头替换的概率,提出了一种新的规则评估方法:
序列模型(如RNN)是一种自然的选择去学习 q ( r h = r i ∣ r b ) q(r_h=r_i|\textbf{r}_\textbf{b}) q(rh=ri∣rb)。我们需要一个 ∣ R ∣ l + 1 |R|^{l+1} ∣R∣l+1维度张量,用于存储学习最大长度为 l l l的规则的概率.。它代价太大,而且不可能获得足够的数据点来估计每个条目。
请注意,演绎性质作为逻辑规则最重要的属性之一,允许我们在短规则的基础上分解长规则的推理。给定短规则,形式为: r h r_h rh ← r i r_i ri ∧ r j r_j rj , 我们可以通过用他们的规则头 r h r_h rh替换关系对 r i r_i ri∧ r j r_j rj来减少长关系路径 [ r b 1 , r b 2 , . . . , r b n ] [r_{b_1},r_{b_2},...,r_{b_n}] [rb1,rb2,...,rbn]。通过递归地将不同的短霍恩规则应用于关系路径,它最终将被转换为单个头。按照相同的思路,我们可以以递归方式使用 q ( r h ∣ r i , r j ) q(r_h|r_i,r_j) q(rh∣ri,rj)计算 q ( r h ∣ r b ) q(r_h|r_b) q(rh∣rb)。例如,给定关系路径 [ r b 1 , r b 2 , r b 3 ] [r_{b_1},r_{b_2},r_{b_3}] [rb1,rb2,rb3],如果我们遵循从左到右的顺序, q ( r h ∣ r b 1 , r b 2 , r b 3 ) q(r_h|r_{b_1},r_{b_2},r_{b_3}) q(rh∣rb1,rb2,rb3)则可以如下计算:
由于每一步我们只需要对长度为2的序列建模,这大大减少了长序列建模(如RNN)造成的计算负担。
尽管我们可以遵循逻辑推理将关系路径简化为一个头部,但由于现实世界KG的稀疏性,这种头部关系可能并不总是被观察到。为了避免惩罚在未知区域进行预测的规则,我们引入 p ( r t ∣ r h ) p(r_t|r_h) p(rt∣rh)来弥合逻辑规则的“理想预测”与KGs中给出的“实际观察”之间的差距。
其中, p ( r t ∣ r b ) p(r_t|\textbf{r}_\textbf{b}) p(rt∣rb)是路径 r b \textbf{r}_\textbf{b} rb闭合的比率
3.2 Rlogic框架
在提出的测量标准之后,我们引入了关系路径编码器和闭合比率预测器(即预测路径闭合的比率)来建模 q ( r h ∣ r b ) q(r_h|\textbf{r}_\textbf{b}) q(rh∣rb)和 p ( r t , r h ) p(r_t,r_h) p(rt,rh)分别地给定路径 r b \textbf{r}_\textbf{b} rb,关系路径编码器首先通过递归地应用不同的霍恩规则将 r b \textbf{r}_\textbf{b} rb缩减为单个原子 r h r_h rh 。然后,闭合比率预测器通过预测路径** r b \textbf{r}_\textbf{b} rb**闭合的比率,弥补了逻辑规则的“理想预测”与“实际观察”之间的差距。
*3.2.1 谓词表示学习。*谓词是逻辑规则上下文中的基本单位。我们学习低维向量来表示谓词。我们表示谓词的嵌入ri,ri∈ R d R^d Rd。通过谓词的表示,RLogic可以识别类似的谓词,如Grandpa和GrandFather。请注意,我们可能并不总是找到现有关系来替换关系路径。例如,关系路径[hasMother,HasMotor,HasDawn]可以由单个关系hasAunt替换,该关系可能不包含在KG中。为了适应看不见的关系,我们在预测集中引入了一个“空”谓词, 其表示为: R 0 R_0 R0。分数函数是基于谓词的表示来计算的。对于任何候选规则,即使没有来自其规则实例的直接证据支持,我们仍然可以计算其得分。
关系路径编码器。关系路径编码器的目标是找到头部关系rℎ 以替换关系路径rb。它需要学习推导关系路径的顺序(即,在每个步骤中选择的特定关系对)和用单个关系替换关系对的概率(即, q ( r h ∣ r i , r j ) q(r_h|r_i,r_j) q(rh∣ri,rj)。
学习推导关系路径的顺序。如图3所示,有许多不同的方法来推导关系路径。给定长度为l的关系路径, 有卡特兰数个分解关系路径的不同方法。为了降低高计算复杂度,我们采用贪婪算法在每一步选择最优关系对,而不是枚举所有可能的演绎顺序来寻找全局最优,这将复杂度降低到(l-1)+(l+2)+…1。
考虑到在我们的问题中,基本真理推导顺序不可用,我们必须利用不同的标准来评估路径中的关系对。熵通常用于测量半监督学习和领域自适应中预测的置信度。通过最小化熵,可以提高预测的置信度。关系对的熵 ( r i , r j ) (r_i,r_j) (ri,rj) 定义如下:
熵越低,我们越有信心找到一个关系来替换关系对。为了最大化推理的置信度,我们选择熵最小的关系对作为每一步的最优选择。
学习用单个关系替换关系对的概率。给定推导关系路径的顺序,下一步是学习 q ( r h ∣ r i , r j ) q(r_h|r_i,r_j) q(rh∣ri,rj) 以递归地减少关系路径。 q ( r h = r k ∣ r i , r j ) q(r_h=r_k|r_i,r_j) q(rh=rk∣ri,rj)可以通过多层感知器(MLP)分类器来近似。MLP分类器 f θ ( r i , r j ) f\theta(r_i,r_j) fθ(ri,rj)是一个具有参数theta的两层全连接神经网络. 它需要谓词的嵌入 r i , r j r_i,r_j ri,rj作为输入,并输出它们可以被KG中的每个关系加上“空”谓词(即未知关系)替换的概率。考虑到 q ( r h ∣ r i , r j ) q(r_h|r_i,r_j) q(rh∣ri,rj)遵循分类分布,MLP分类器使用softmax作为最后一层的激活函数。使用函数 f θ ( r k , r b 3 ) f\theta(r_k,r_{b_3}) fθ(rk,rb3)近似值 q ( r h ∣ r k , r 3 ) q(r_h|r_k,r_3) q(rh∣rk,r3) ,我们将等式(8)中的公式改写为:
从公式中可以看出,关系对
r
b
1
,
r
b
2
r_{b_1},r_{b_2}
rb1,rb2可以用KG中的关系替代(即
q
(
r
k
∣
r
b
1
,
r
b
2
)
q(r_k|r_{b_1},r_{b_2})
q(rk∣rb1,rb2)。将所有这些概率包括在计算中以模拟复杂的逻辑推理是重要的。例如,给定规则体hasAunt(x, z) ∧ hasSister(z,y), hasMother(x,y)和hasAunt(x,y)可以作为rule head。然而,这会造成巨大的计算负担,因为
f
θ
(
r
k
,
r
b
3
)
f\theta(r_k,r_{b_3})
fθ(rk,rb3)也需要为每个在KG中的谓词rk计算(即总共|R| +1个)。为了减少计算负担,我们建议用近似
,式中r-tilde可定义为:
我们可以观察到,r-tilde是一个“加权平均”表示,它是通过“软”相加KG中所有谓词 r k r_k rk的表示来学习的。有了r-tilde,我们显著减少了计算负担。
闭合比率预测器。尽管我们可以按照逻辑推理将关系路径简化为一个单头关系,但由于现实世界KG的稀疏性,这种头关系可能并不总是会被发现。为了弥补逻辑规则的“理想预测”与“实际观测”之间的差距,提出了闭合比率预测器来预测路径闭合的比率。引入两层全连接神经网络(MLP)进行建模 p ( r t ∣ r h ) p(r_t|r_h) p(rt∣rh)。 它使用ReLU作为第一层的激活函数,并添加sigmoid作为第二层的激活功能。关系路径编码器在最后一层学习得到的r-tilde和rt的embedding作为输入去得到闭合比率。
模型训练。本节讨论RLogic的训练过程。我们首先介绍了我们提出的用于训练数据生成的闭合路径采样器。然后,我们给出了训练关系路径编码器和闭合比率预测器的目标函数。
用于生成训练数据的闭合路径采样器。我们使用闭合路径采样器仅对一部分闭合路径进行采样以训练模型,而不是枚举KG中所有的闭合路径。我们提出了一种基于随机游走的过程,以有效地对闭合路径进行采样。形式上,给定源实体 x 0 x_0 x0,我们模拟固定长度n的随机游走。 让 x i x_i xi表示行走中的第个节点。节点 x i x_i xi由以下分布生成:
其中 是实体
e
j
e_j
ej的邻居大小。与随机行走不同,每次采样下一个节点
x
i
x_i
xi后, 我们添加KG中所有可以直接连接
x
0
x_0
x0和
x
i
x_i
xi的边来构建闭合路径。
训练关系路径编码器的目标函数。关系路径编码器旨在找到头部关系 r h r_h rh 以替换关系路径 r b \textbf{r}_\textbf{b} rb。每个采样的闭合路径可以被视为一个正样本,其目标关系给出了头部关系的基本事实 r h r_h rh。负样本可以通过破坏正样本产生。请注意,KG在开放世界假设(OWA)下运行。KG中未包含的声明不一定是错误的。这只是未知。我们不能假设否定的例子必然是错误的,我们只能推断它们比那些肯定的例子更无效。为了使正面示例的分数高于负面示例的分数,我们使用基于以下损失函数学习 q ( r k ∣ r b ) q(r_k|r_b) q(rk∣rb):
其中 [ x ] + = m a x ( 0 , x ) [x]_+=max(0,x) [x]+=max(0,x) ,评分函数 s ( . ) s(^.) s(.)可以通过关系路径编码器进行参数化。 γ > 0 \gamma>0 γ>0是分隔正闭合路径和负闭合路径的边界超参数。为了减少随机性的影响,我们对每个正闭合路径采样多个负样本。我们将闭合路径的负样本集 ( r h , r b ) (r_h,\textbf{r}_\textbf{b}) (rh,rb)表示为 N ( r h , r b ) N(r_h,\textbf{r}_\textbf{b}) N(rh,rb),其通过替换闭合路径的头部关系来构造,其中关系从关系集 R R R中随机采样:
训练闭合比率预测器的目标函数。闭合比率预测器通过预测路径 r b \textbf{r}_\textbf{b} rb闭合的比率,弥补了逻辑规则中的“理想预测”和“实际观察”之间的差距。KG中的每个闭合路径可以被视为正样本,而不能通过任何关系闭合的路径被视为负样本。学习 p ( r t ∣ r h ) p(r_t|r_h) p(rt∣rh)的目标函数可以表示为二元交叉熵损失:
其中 P P P仅存储正示例, N N N仅存储负示例。 r h r_h rh是替换由关系路径编码器学习的关系路径 r b \textbf{r}_\textbf{b} rb的头部。
3.3 规则抽取
为了从RLogic抽取逻辑规则,当模型完成训练时,我们对每个规则 δ \delta δ计算分数 s ( r h , r b ) s(r_h,\textbf{r}_\textbf{b}) s(rh,rb)。与大多数现有只能对基于头部关系的规则进行排序方法不同的是,我们的方法可以对规则进行全局排序。有了这些分数,我们可以选择最重要的规则来解释整个KG,而不是推断某种关系。提取规则的详细过程如下所示。给定候选规则 ( r h , r b ) (r_h,\textbf{r}_\textbf{b}) (rh,rb),我们通过 q ( r h ∣ r i , r j ) q(r_h|r_i,r_j) q(rh∣ri,rj)递归合并路径 r b \textbf{r}_\textbf{b} rb中的关系对将规则体 r b \textbf{r}_\textbf{b} rb缩减为单个头 r h rh rh。 每一步,关系对 ( r i , r j ) (r_i,r_j) (ri,rj)将根据等式(12)选择具有最小熵的值,并用中间表示r-tilde代替。在推导结束时,我们得到了向量 [ q ( r 0 , r b ) , q ( r 1 , r b ) , . . . , q ( r ∣ R ∣ , r b ) ] [q(r_0,\textbf{r}_\textbf{b}),q(r_1,\textbf{r}_\textbf{b}),...,q(r_{|R|},\textbf{r}_\textbf{b})] [q(r0,rb),q(r1,rb),...,q(r∣R∣,rb)],其中 q ( r k , r b ) q(r_k,\textbf{r}_\textbf{b}) q(rk,rb)是规则 ( r k , r b ) (r_k,\textbf{r}_\textbf{b}) (rk,rb)的分数。k个得分最高的规则将被选为学习规则。
4 实验
**数据集。**我们采用四个广泛使用的基准数据集来评估RLogic,包括WN18RR[8]、FB15K237[37]、YAGO3-10[34]和系列[13]。附录中总结了数据集的详细统计数据。
4.1 KG补全任务中学习规则的质量
KG补全是逻辑规则学习方法广泛使用的经典任务,如Neural-LP[42]、DRUM[29]和NLIL[43],以评估学习规则的质量。一种称为前向链接[30]的现有算法可用于有效地从逻辑规则中导出缺失事实。我们选择了RLogic在KG补全任务中得分最高的2400条规则。附录中提供了应用KG补全规则的详细方法。
**评估指标。**我们屏蔽每个测试三元组的头部或尾部实体,并要求每个方法预测屏蔽实体。在评估期间,我们使用过滤设置[3]和三个评估度量,Hit@1, Hit@10和MRR。为了打破具有相同分数的三元组的联系,我们遵循随机协议[36]对具有相同分数三元组进行排序。
**与其他方法比较。**我们针对SOTA算法评估RLogic,包括:(1)传统KG嵌入(KGE)方法(例如,TransE[3]、DistMult[41]、ConvE[8]、ComplEX[38]和RotatE[35]);(2)逻辑规则学习方法(例如,Neural-LP[42]、NLIL[43]、DRUM[29]、AMIE[12]和RNNLogic[26])。更多详细设置见附录。比较结果如表2所示。我们可以观察到:(1)尽管RLogic不是专门为KG补全任务设计的,但与传统的KGE模型相比,它在所有数据集上仍然取得了可比较的结果;(2)RLogic优于大多数逻辑规则学习方法,在大多数情况下具有显著的性能增益;(3)RNNLogic在KG补全任务中表现出了出色的性能,因为它联合训练了一个强大的推理预测器来预测丢失的关联。为了与RNNLogic进行公平比较,我们建议RLogic+结合一种改进的预测推理预测器。我们将在下一节中展示RLogic+对KG补全任务的结果。
归纳链路预测。值得注意的是,将逻辑规则学习方法与KGE方法仅在直推式KG补全任务上进行比较是不公平的。与KGE方法不同,KGE方法不能对看不见的实体进行推理,所以逻辑规则在归纳设置中更强大。归纳链路预测实验的结果如表3所示。更多详细设置见附录。我们观察到,所有的规则学习算法仍然实现了与直推式类似的性能。
**RLogic+。**与其他基线方法不同,RLogic直接学习规则,而不作为副产品增强KG补全任务。尽管RLogic能够生成高质量的逻辑规则,但由于缺乏良好的推理预测器,其在KG完成任务上的性能受到规则覆盖率和KG不完整性的严重限制。根据UniKER[4],我们通过使用旋转[35]添加额外的高分三元组来解决KG稀疏性问题,然后进行正向链接以预测丢失的三元组。结果如表4所示。我们可以看到,在KG嵌入的帮助下,RLogic+在KG补全任务上的性能在所有数据集上都得到了显著改善,尤其是在FB15k237上。
4.2 规则头预测任务中学习规则的质量
除了在KG补全任务方面有前景的性能外,我们还直接评估每个系统在家庭数据集上学习的规则的正确性。特别地,我们提出了一种新的任务规则头预测方法来预测一组规则体的头。人类注释用于标记规则体,以准备基本事实。平均平均精度(MAP)作为评估度量。更多详细设置见附录。
*4.2.1学习等长规则。*我们根据多种逻辑规则学习方法评估RLogic。每种方法都给出一组长度为2的闭合路径作为训练数据,并需要预测等长规则体的规则头。比较结果如图5所示。我们观察到,RLogic优于所有其他逻辑规则学习方法,并获得了显著的收益。
*4.2.2学习更长的规则。*RLogic将演绎性质结合到规则学习中,因此可以用训练阶段更短的闭合路径来学习更长的规则。在本实验中,我们只允许在训练阶段观察到长度为2的闭合路径,并要求每个系统预测长度范围为2到6的较长规则体的规则头。
**与其他方法比较。**考虑到大多数现有的逻辑规则学习方法依赖于规则实例来定义规则评估的得分函数,因此无法处理这样的设置,我们通过用RNN和LSTM替换RLogic中的关系路径编码器来构造两条基线。实验结果如图6左图所示。我们观察到:(1)RLogic在规则头预测任务中表现最佳,给出几乎完全正确的预测;(2) LSTM比RNN性能更好,因为与RNN相比,它自然可以更好地处理更长的顺序数据。
**规则长度的影响。**为了进一步研究规则体的长度如何影响性能,我们在{2、3、4、5、6}之间改变规则体长度,并报告相应的MAP。如图4右图所示,当规则体变长时,RNN和LSTM的性能严重下降,而RLogic受规则体长度的影响较小。
**案例研究。**我们还进行了一个案例研究,以展示递归机制的威力,该机制使RLogic能够在规则体变长时给出正确的预测。如图7顶部的图所示,三个查询分别使用长度为2、5和6的规则体手动设计。较长的查询是通过将新谓词添加到较短查询的规则体末尾而形成的。图7底部的表格中给出了推断出的前三个规则头,与它们的概率(四舍五入)。我们观察到,RLogic在所有情况下都表现良好,而RNN和LSTM随着体长的增加提供正确预测的难度越来越大。
4.3 训练效率
RLogic直接在模式级学习规则,而其他现有方法基于实例级基本规则学习规则。因此,RLogic比所有现有的方法更有效。为了证明RLogic的可扩展性,我们在表5中给出了RLogic和其他逻辑规则学习方法在三个基准数据集上的训练时间。考虑到基线方法学习长规则具有挑战性,为了与不同方法进行公平比较,我们将学习规则的最大长度限制为2。我们可以观察到:(1)Neural-LP,NLIL和DRUM在效率方面表现不好,因为它们涉及大矩阵乘法。由于内存问题,他们无法处理YAGO3-10数据集;(2) RNNLogic扩展到大规模KG也是一个挑战。它既不能处理具有数百个关系(如FB15K237)的KG,也不能处理具有百万个实体(如YAGO3-10)的KG;(3) 尽管RLogic和AMIE的性能在同等规模,但AMIE效率较低,因为它依赖所有规则实例进行规则评估。
4.4 规则的质量和可解释性
为了证明RLogic挖掘的规则的质量和可解释性,我们在表8中显示了在FB15k-237数据集上生成的一些逻辑规则。对于每个头部谓词,给出了两个长度不同的规则。我们强调用黑体表示相同语义的谓词。我们可以观察到,较长规则中的粗体谓词可以用来推断较短规则中的黑体谓词。这一观察再次验证了RLogic能够捕获逻辑规则的演绎性质。有关生成规则的更多分析,请参见附录。
5 相关工作(略)
6 结论
大多数现有的方法完全依赖于观察到的规则实例来定义用于规则评估的分数函数,因此缺乏泛化能力并且计算低效。RLogic定义了一个基于谓词表示学习的评分模型,而不是完全依赖规则实例进行规则评估,该模型由采样的规则实例进行训练。此外,RLogic将逻辑规则最重要的属性之一,演绎性质,融入到规则学习中,这在规则缺乏支持证据时尤为重要。为了将演绎推理深入到规则学习中,RLogic以递归的方式将大的顺序模型分解为小的原子模型。
于规则评估的分数函数,因此缺乏泛化能力并且计算低效。RLogic定义了一个基于谓词表示学习的评分模型,而不是完全依赖规则实例进行规则评估,该模型由采样的规则实例进行训练。此外,RLogic将逻辑规则最重要的属性之一,演绎性质,融入到规则学习中,这在规则缺乏支持证据时尤为重要。为了将演绎推理深入到规则学习中,RLogic以递归的方式将大的顺序模型分解为小的原子模型。