DeepInspect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks笔记

本文链接：https://blog.youkuaiyun.com/Billy1900/article/details/120084617

Challenges:
C1.后门的隐蔽性使得他们很难通过功能测试functional testing来识别（这种测试通常会使用测试准确率作为检测标准）
C2.在后门检测期间，只能得到被查询模型的有限信息。在真实世界中一个干净的训练数据集或者一个好的推理模型可能不容易得到。训练集包含用户的个人信息，所以一般不会分布在预训练的模型中。
C3.防御者不知道攻击者指定的target。
在我们的情况下，攻击者是恶意模型的提供者而防守者是终端用户。攻击者目标的未知性使得NT的检测更加复杂，因为对于有大量输出class的大规模模型来说，暴力搜索所有可能的攻击目标是不现实的。
步骤：
model inversion来恢复出替代的训练集，使用conditional Generative Adversarial Network(cGAN）的trigger reconstruction，以及基于统计假设测试的异常检测。我们提出的方法不需要干净训练集或者一个ground-truth reference model的辅助。我们的最小化假设确保了DI的应用广泛性
Neural Cleanse是第一个做后门检测的。他们的方法是为每一个output class利用梯度下降方法通过逆向工程得到可能的trigger，然后利用trigger size(l1 范数)作为识别是否是infected classes的标准。然后其存在下列局限：1.它假设使用GD恢复trigger的干净数据集是可得到的；2.对于trigger恢复来说它要求对被查询的模型有白盒权限；3.对于有大量的class的DNN来说该方法是不可扩展的，因为相当于要对每一个class都重复trigger recovery的优化问题。而我们的方法在黑盒环境下，不需要干净数据集就可以同时对大量的class恢复出trigger，因此就不存在提到的3个问题。因此，DI可以被作为第三方服务，来检测只有对模型的API访问权限的情况。
具体过程：
1） model inversion:这一步利用了target model的confidence score。恢复出的数据集将被用于下一步的GAN的训练；

x是输入数据，t是要恢复的target class,f是queried model在给定x作为输入后预测t的可能性，AuxInfo(x)是一个可选性，其集成了关于input的辅助约束条件。
2） trigger generation：我们的方法利用生成模型generative model来重构木马攻击可能使用的trigger pattern。（因为攻击目标（infected output classes）对于防御者来说是不知道的）,我们利用conditional generator 来有效重构属于不同的attack target的trigger；
这是最关键的一步。我们通过训练一个conditional generator来学习trigger的概率密度分布probability density distribution，它们的perturbation level会作为检测统计数据。特别的，我们部署了cGAN来模拟木马攻击的过程。cGAN训练的目标如下
在这里插入图片描述

D是queried DNN，t是检查过的攻击目标，x是来自近似数据分布的样本，该分布是通过model inversion得到的，trigger是这个conditional generator的输出
在这里插入图片描述

是从trigger分布中采样得到。
已有的攻击使用的是一个固定的trigger pattern，因此可以认为是trigger distribution为常值的一种特殊情况。
下图表示了我们trigger generator的high-level overview
在这里插入图片描述

DeepInspect会将预训练好的模型作为固定的判别器D。同样的，trigger generation的关键挑战就是形式化loss来训练conditional generator.由于我们的威胁模型假设输入维度和输出类别的数量是已知的，我们可以找一个可行的G的拓扑来使用固定形状生成trigger作为inversed input x。为了模拟木马攻击，DI首先集成了一个负对数似然损失，如下所示
在这里插入图片描述

其用来量化G的输出的trigger的用于fool D的质量
此外，还集成了一个常规的对抗损失项来确保假的图像不会被D从原图像中识别出来
在这里插入图片描述

mse即mean square error，均方误差损失函数。
最后，我们通过使用防御者选择的门限在它的l1 范数上添加一个soft hinge loss，来限制G的输出的magnitude
在这里插入图片描述

限制摄动幅度是稳定GAN训练的常见做法。
这三个损失的权重和被用来训练conditional G
在这里插入图片描述

我们选择这两个超参数来确保G的output trigger至少可以达到95%的攻击成功率。注意，为良性和中毒模型都学习一个可行trigger的pdf也是可行的（用来进行目标误分类的扰动）插入木马就类似于将数据点横跨决策边界进行移动。
3） anomaly detection:在使用cGAN为所有的cGAN生成trigger后，DeepInspect会将木马检测问题转为异常检测问题。所有类别的扰动数据会被搜集起来，在左侧长尾的离群点就表明了后门的存在。
DeepInspect利用的observation就是，我们发现相比于中毒模型中的未受感染的class，trigger只需要异常小的扰动就可以被输出为target class.
在第二步之后，DI展开hypothesis testing和robust statistics来检测trigger perturbation中的离群点的存在。更具体来讲，我们使用‘Double Median Absolute Deviation’的变种来作为检测标准。我们的DMAD方案首先计算所有统计点的中间值m，然后用其对原始的trigger perturbation扰动进行分割为2部分。由于我们只需要考虑扰动分布的左侧的潜在离群点，左侧子部分的所有数据点的绝对偏差被计算并标记为dev_left，.总体偏差和一致性常数（正态分布为1.4826）的乘积表示为mad，它用作S的标准偏差（std）的一致估计量。
我们定义一个数据点的deviation factor偏差因子（df）作为中间值和MAD值的绝对偏差
在这里插入图片描述

假设扰动数据的分布满足正态分布，DI使用了截止门限c=2为我们的假设测试提供了α=0.05的显著性水平。在Sleft的任何数据点如果其df值大于c，则被标记为离群点，他们对应的标签将被识别为可疑的attack target。
请注意，可以使用标准变量的尾部分布（也称为“ Q函数”）来选择截止值c以确保防御者指定的显着性水平。用L来标记使用均值和标准差的扰动level的随机变量random variable(RV)。然后，用相应的规范化后的正则变量C服从标准正态分布。显著性水平和截止门限的关系描述如下
在这里插入图片描述