【论文阅读】先验规则-Controlling Neural Networks with Rule Representations

本文链接：https://blog.youkuaiyun.com/qq_45721997/article/details/127505545

提出一个模型：DEEPCTRL

下图是模型算法的描述
在这里插入图片描述 算法解释：
我们建议通过引入数据编码器 $\phi$ _d和规则编码器 $\phi$ _r这两个通道来改进规范化训练方法。
这样，我们的目标是使每个编码器分别学习潜在表示(zd和zr)，对应于从标记数据和规则中提取的信息。然后，将这两个表示随机连接(记为⊕)，得到一个表示z。我们使用的是小批量训练，就是有D_b的存在。为了调整数据与规则编码的相对贡献，我们使用随机变量α∈[0,1]，它也将(zd, zr)与相应的目标(Ltask, Lrule)耦合(算法1中的第4和第5行)。α从分布P (α)中采样。

关于模型类型：

DEEPCTRL是模型类型不可知的——我们可以根据类型和任务为编码器和决策块选择适当的归纳偏差。例如，如果输入数据是图像，而任务是分类，编码器可以是卷积层，以提取与局部空间相干相关的隐藏表示，决策块可以是MLP后面跟着一个softmax层。

关于α：

使用随机α的动机是鼓励学习与一系列值的映射，以便在推理时，模型可以使用任何特定的选择值产生高性能。决策块的输出在整个目标中使用。通过修改推理时的控制参数α，用户可以控制模型的行为，使其适应不可见数据。增加α的值可以增强规则对输出决策的强度。设置α = 0会使规则在推理上的贡献最小化，但从实验中可以看出，由于在训练过程中考虑了较广的α范围，因此结果仍然可以优于传统训练。通常，在给定特定性能、透明度和可靠性目标的情况下，一个中间α值产生最优解。为了确保一个模型在α→0或α→1时表现出明显的和鲁棒的行为，从而在之后进行精确的插值，我们建议在两个极端处对α进行更多的采样，而不是从两个极端均匀地采样。为此，我们选择从Beta分布(Beta(β， β))中取样。当β = 0.1 in时，我们观察到较强的结果。在第5节中，我们进一步研究了α的先验选择的影响。由于Beta分布是高度极化的，每个编码器都被鼓励学习与相应编码器相关联的不同表示，而不是混合表示。在[1,33]中也考虑了类似的采样思想，以有效地对混合权重进行采样，以进行表示学习。

我们主要的公式：

L=L_task+ $\lambda$ L_rule
L_task是基于目标的，L_rule是基于规则的。
考虑到两者的计算尺度可能不同（比如一个算出来为10，20，一个算出来是0.1，0.2，我们在训练集上计算初始的损失值L_rule,0，L_task,0，引入一个尺度参数 $\rho$ 。
公式如下：
$\rho$ =L_rule,0/L_task,0
在这里插入图片描述
处理基于规则的部分（拓展了基于规则的范围）：
我们某些时刻可以直接把规则转换为可微形式，比如如果x<5,…这种，但是很多时候是不可微的，需要进行转化，这里的转化方法是：
输入特征x，修改原始输出的元素y^~，为其构造基于规则的约束Lrule。
比如面对不可微的规则：【当a < x_k(其中a是一个常数， x_k是第k个特征)时，第j个类的概率高一些】
我们的转化：【我们只会考虑x_p是一个有效的摄动输入，当x_k <a和a< x~p, k~，并且ˆy^p从x^p计算得到。Lrule定义为:】
在这里插入图片描述