Abstract:
攻击者可以通过修改训练数据和模型参数来将后门嵌入到模型中。大多数针对后门攻击的检测算法都是针对input samples和model parameters,通过恶意输入和良性输入在后门模型中的统计差异来进行区分。本文中,我们设计了一种对抗性后门嵌入算法,可以bypass已有的检测算法。我们设计了一种自适应的对抗训练算法来优化模型原始的损失函数,并最大化两种样本latent representation的不可区分度。
Introduction
在本文中,我们关注针对机器学习算法的主动攻击。
在此前的研究中已经提出了很多类型的backdoor trigger。比如对应Input space中特定输入的backdoor instance,或者是带有特定像素模式的的pixel-pattern的trigger,比如带有stamp的图像,以及包含特定的high-level特征的semantic trigger,比如带有特定形状或者颜色的object。下图所示就是一个带有trigger的例子。

大量的防御手段被提出,这些方法关注识别带有后门的输入,以及模型的哪一部分与激活对抗行为相关。给定一个对抗模型,检测算法会尝试识别出模型的隐层中的后门的signature,,以从输入中区分出后门trigger。这里我们需要注意,backdoor只是机器学习模型main task的一个exception。因此,为了通过main task学习adversarial task,学习算法需要尝试最小化两者间的conflict。这就是最先进的算法目前依赖的理论。这种算法计算input的latent representation的统计量的各种类型,来帮助防御者区分毒化样本和良性样本,这完全是基于他们的latent representation的分布的显著的非相似性。
这些防御手段都有一个相同的含蓄的假设,就是攻击者没有意识到检测算法是怎么工作的。这导致这些防御算法忽略了自适应的攻击算法。
本文设计了一种对抗性后门嵌入算法adversarial backdoor embedding,它会最大化毒化样本和良性样本之间的latent不可区分性.同时为了有效规避一般通用检测算法,我们通过对抗正则化adversarial regularization来最大化输入数据latent indistinguishability隐不可区分性。
在我们的威胁模型中,敌手可以利用训练算法。在我们的攻击中,我们依赖数据投毒和对抗正则化。我们构建了一个判别网络来对识别模型隐层中的良性样本和毒化样本之间的差异做优化。而分类模型的目标函数被对抗正则化到了最大化判别器的损失。因此,最终的模型不仅依赖于根据良性样本的label分类良性数据点,而且可以精确根据对抗label份额里对抗数据点,而且对于这两类数据点在latent representation上做到不可区分。这将会使得那些被攻击后的模型可以规避聚类和分隔两类输入的latent r

最低0.47元/天 解锁文章
1045

被折叠的 条评论
为什么被折叠?



