Unfolding Local Growth Rate Estimates for (Almost) Perfect Adversarial Detection顶会论文总结

摘要

轻量级的二分类器；局部固有维度与几种简单的调整

卷积神经网络(CNN)定义了许多感知任务的最先进解决方案。然而，目前的CNN方法在很大程度上仍然容易受到输入的对抗性扰动的影响，这些扰动是专门为欺骗系统而设计的，同时人眼几乎无法察觉。近年来，人们提出了各种方法来保护cnn免受此类攻击，例如通过模型强化或添加显式防御机制。因此，在网络中包含一个小的“检测器”，并在区分真实数据和包含对抗性扰动的数据的二元分类任务上进行训练。在这项工作中，我们提出了一个简单且轻量级的检测器，它利用了最近关于网络局部固有维数(LID)与对抗性攻击之间关系的研究结果。基于对LID测量的重新解释和一些简单的调整，我们在对抗性检测方面超越了最先进的技术，并在几个网络和数据集的f1得分方面达到了几乎完美的结果。

1引言

深度神经网络(dnn)是一种高度表达的模型，在图像分类等广泛的复杂问题上取得了最先进的性能。然而，研究发现，dnn很容易被对抗性示例所破坏[Goodfellow等人，2015,Madry等人，2018,Croce和Hein, 2020a, Croce和Hein, 2020b]。将这些有意的扰动应用于网络输入，潜在攻击者欺骗目标网络在测试时做出错误预测的可能性非常高[Carlini和Wagner, 2017a]。因此，深度网络的这种不良特性已成为dnn在自动驾驶汽车和身份识别等实际应用中的主要安全问题[Evtimov等人，2017,Sharif等人，2019]。

近年来对抗性对抗的研究主要分为对抗性训练和对抗性检测两个角度。第一组方法的目的是通过使用对抗性示例增加训练数据来“强化”网络的鲁棒性，而后一组方法则试图检测和拒绝恶性输入。

在本文中，我们将研究限制在卷积神经网络(CNN)对抗性图像的检测上。我们介绍了一种新的白盒检测器，在广泛使用的基准设置中显示出接近完美的检测性能。我们的方法建立在对抗样本形成不同子空间的概念之上，不仅在输入域，而且在神经网络的特征空间中最主要[Szegedy等人，2014]。因此，一些先前的工作已经试图找到表征和识别这种对抗区域的定量措施。我们研究了常用的局部固有维数(LID)的性质，并表明对抗性子空间的鲁棒识别需要(i)展开的局部表示和(ii)这些流形的非线性分离。我们利用这些见解来制定新的multiLID描述符。对所提出方法的广泛实验评估表明，multiLID可以可靠地识别由对cnn的最先进攻击产生的对抗性样本。总之，我们的贡献是:

•对广泛使用的LID探测器进行了分析。

•新颖的重新制定了一个未展开的非线性multiLID描述符，它允许在CNN架构中接近完美地检测对抗式输入图像。

•在通用基准架构和数据集上对我们的方法进行深入评估，显示了所提出方法的优越性能

2相关工作

在下面，我们首先简要回顾对抗性攻击的相关工作，并提供我们评估所依据的既定攻击方法的详细信息。然后，我们总结了通过对抗训练来强化网络的方法。最后，对对抗性检测的相关文献进行了综述

2.1对抗攻击

众所周知，卷积神经网络容易受到对抗性攻击，即(通常是很小的)输入图像的扰动，这些扰动被优化以推翻网络的决策。过去已经提出了几种这样的攻击，我们基于以下最广泛使用的攻击子集进行实验评估。

FGSM

快速梯度法(FGSM) [Goodfellow等人，2015]使用给定模型的梯度来创建对抗性示例，即是一种白盒攻击，需要完全访问模型架构和权重。它通过梯度上升将输入图像的损失最大化，以创建一个对抗图像XXX adv：

公式1

其中X是良性输入图像，y是图像标签，ε是确保扰动较小的小标量。

BIM

基本迭代法(BIM) [Kurakin et al.， 2017]是FGSM的改进迭代版本。每次迭代后，像素值被裁剪到输入图像周围的ε球(即[x−ε， x + ε])以及输入空间(即像素值的[0,255]):

对于步长为α的迭代N

PGD

投影梯度下降(PGD) [Madry等人，2018]类似于BIM，是目前最流行的攻击之一。PGD为每次迭代添加扰动的随机初始化。优化后的扰动再次投射到ε球上，以确保原始图像和攻击图像在L2或L∞范数上的相似性。

AA

AutoAttack (AA) [Croce and Hein, 2020b]是四种无参数攻击的集合:PGD的两个无参数变体[Madry et al.， 2018]使用APGD-CE中的交叉熵损失和APGD-t中的logits ratio差损失(DLR):

其中π是z分量的降序排列。进一步的AA包括FAB攻击的目标版本[Croce和Hein, 2020a]，以及方形攻击[Andriushchenko等人，2020]，这是一种黑箱攻击。在RobustBench中，模型在连续执行四种攻击的标准模式下使用AA进行评估。如果一个样本的预测不能被一次攻击翻转，则将其移交给下一个攻击方法，以最大限度地提高整体攻击成功率。

DF

DeepFool (DF)是一种非目标攻击，它通过迭代线性化方法找到翻转网络决策所需的最小扰动[Moosavi-Dezfooli等人，2016]。因此，它估计从输入样本到模型决策边界的距离。

CW

Carlini&Wagner (CW) [Carlini and Wagner, 2017b]使用输入Xadv的直接数值优化，例如在最小所需扰动下翻转网络的预测，并提供相对于L2, L0和L∞距离的优化结果。在我们的评估中，我们用L2距离来计算CW。

AT

对抗训练是指使用对抗样本来增强神经网络训练数据的概念。理想情况下，这个过程应该导致潜在空间更好和更密集的覆盖，从而增加模型的鲁棒性。FGSM [Goodfellow等人，2015]对抗训练提供了相当快的对抗训练数据生成的优势。然而，模型倾向于过度拟合特定攻击，因此必须采用诸如提前停止等额外技巧[Rice等人，2020,Wong等人，2020]。多步对手的训练更容易泛化，但由于计算成本的原因，对于像ImageNet这样的大规模问题来说，很难负担得起。

2.2对抗检测

对抗性检测旨在区分对抗性样本和良性样本，因此是昂贵的对抗性训练策略的低计算替代。在测试场景中，对抗性攻击可能会被拒绝，并导致错误的分类。给定原始任务的干净数据集上训练好的DNN，许多现有方法[?, Feinman et al., 2017,Lee et al., 2018,Harder et al., 2021,Lorenz et al., 2021]在给定网络的一些隐藏层嵌入之上训练一个二元分类器作为对抗检测器。该策略的动机是观察到对抗性示例与中间层特征的自然示例具有非常不同的分布。因此，检测器可以建立在分布的一些统计数据上，即核密度(KD) [Feinman等人，2017]，马氏距离(MD) [Lee等人，2018]距离，或局部固有维数(LID) [Ma等人，2018]。频谱防御方法[Harder等人，2021,Lorenz等人，2021,Lorenz等人，2022]旨在通过输入或特征图表示中的频谱检测对抗图像

互补的，[Yang et al.， 2021]提出遵循类距离原则训练变分自编码器。他们认为，对抗性图像的重建具有不同的特征，可以更容易地使用(例如KD, MD和LID)来检测。

2.3Local Intrinsic Dimensionality (LID)

局部固有维数(Local Intrinsic Dimensionality, LID)是一种表示学习表征空间中点到其邻居的平均距离的度量[Amsaleg等人，2015,Houle, 2017a]，从而通过最大似然估计近似表征空间的固有维数。

设B为N个干净样本的小批量，设ri(x) = **d(x, y)**为样本x与其在B中的第i个近邻之间的欧氏距离。怎么LID可以近似为

公式2

其中k是控制要考虑的最近邻居数量的超参数，d是所使用的距离度量。Ma et al. [Ma et al.， 2018]提出使用LID来表征对抗性样本的属性，即他们认为在分类器的学习潜在空间中，样本到相邻样本的平均距离是对抗性样本和良性样本的特征。具体来说，他们使用L²距离来评估样本x的神经网络f (x)的j维潜在表示（特征图）

公式3

对于所有的l∈L特征映射。他们计算每个样本的LID值向量:

公式4

最后，他们对训练数据和在训练数据上生成的对抗样本计算→LID(xxx)，并训练逻辑回归分类器来检测对抗样本1。

3重新审视局部固有维数

[Ma等人，2018]中提出的用于对抗性样本检测的LID方法是由[Amsaleg等人，2015]提出的对内在维数的最大似然估计驱动的。我们参考这个原始公式来激励我们提出的multiLID。我们将Rm, d表示为一个具有非负距离函数d的连续定义域。连续固有维数的目的是根据点间距离的分布来度量Rm的局部固有维数。因此，对于不动点x，我们考虑距离分布作为随机变量D在[0，+∞)上的概率密度函数fD和累积密度函数FD。对于从连续概率分布中抽取的样本x，则其固有维数定义为[Amsaleg et al.， 2015]:

定义3.1。内在维度(ID)。给定样本x∈Rm，设D为随机变量，表示x到其他数据样本的距离。若D的累积分布F(d)为正且在距离d > 0处连续可微，则x在距离d处的ID为:

公式5

在实践中，给定固定数目的n个x的样本，我们可以按升序计算它们到x的距离，d1≤d2≤···≤dn−1，任意两个样本之间的最大距离为w。如[Amsaleg et al.， 2015]所示，xxx的IDD(d)的对数似然为

公式6

最大似然估计为

公式7/8

即，估计是从具有平均ID D的正态分布中得出的，其方差随着样本数量的增加而线性减小，而随着IDD的增加而二次增大。然后，本地ID是基于x的本地邻域对ID的估计，例如，基于它的k个最近的邻居。这对应于式(2)。这种局部近似的优点是，即使在每批的基础上也可以进行高效的计算，如[Ma等人，2018]所做的那样。它的缺点是它没有考虑方差ID2D/n的强烈变化，即如果样本数量有限，大ID的估计可能会变得任意差。随着[Amsaleg等人，2021]表明具有大ID的潜在表征特别容易受到对抗性攻击，这种情况变得更加严重。

在图1中，我们评估了针对分类器网络潜在特征表示的不同攻击的良性和对抗性示例计算的LID估计的分布(参见第4节)。我们进行了以下两个观察:(i)分布有一个相当长的尾巴，并且不是单模态的，即我们可能面临不同潜在子空间的ID的相当强的变化，(ii)对抗性示例的LID估计倾向于高于良性示例的LID估计，(iii) LID对某些攻击的信息量更大，而对其他攻击的信息量更少。作为第一个结论，当考虑到分布的尾部时，我们期望对抗性样本和良性样本之间的区分特别困难，即对于那些具有相当大的LID的良性点，只能根据式(7)以非常低的置信度进行测量。其次，我们期望基于LID的线性分离方法(如[Ma et al.， 2018])不必要地弱，第三，我们期望所考虑的层的选择对LID的对抗性检测的表达性有相当强的影响。

作为补救措施，我们提出了几个相当简单的改进:

•我们建议在方程(2)中展开汇总的LID估计，而不是在特征向量中单独考虑样本与其邻居之间的归一化对数距离，我们表示为multiLID。

•我们认为，必须仔细选择用于计算LID或multiLID的深层网络层。武断的选择可能会产生糟糕的结果。

•与其使用逻辑回归分类器，高度**非线性分类器(如随机森林)**应该增加基于lid的对抗性和良性样本之间的区分。

让我们更详细地分析LID展开的含义。正如之前在[Ma et al.， 2018]中所论证的那样，经验计算的LID可以被解释为类似于以前的广义膨胀模型的局部增长率估计[Karger和Ruhl, 2002, Houle et al.， 2012]。因此，其思想是从样本周围的体积增长推断出膨胀维度，并通过考虑与样本距离增加的概率质量来估计增长率。像LID这样的扩展模型是在每个样本周围的局部邻域内进行估计的，因此提供了数据维度的局部视图[Ma等人，2018]。eq.(2)中的局部ID估计可以看作是增长率估计的统计解释。详情请参考[Houle, 2017a,Houle, 2017b]。

在实际设置中，这个统计估计不仅取决于所考虑的邻域大小。LID通常以小批量为基础进行评估，即在潜在空间中的随机点样本中确定k个最近邻。虽然这种设置必然是相对嘈杂的，但它提供了更大的空间覆盖率，同时在每个LID评估中只考虑几个邻居。具体来说，当执行式(2)中的求和时，相对增长率在潜在空间内潜在的较大距离内汇总。我们认为，这个求和步骤集成了潜在的非常判别性的信息，因为它混合了直接接近的关于增长率的本地信息和更远处计算的增长率。因此，我们建议“展开”这个增长率估计。代替聚合(半)局部ID，我们建议为每个样本xxx计算一个特征向量，表示为multiLID，长度k为

公式9

其中d是用欧几里得距离测量的。图2显示了100个良性CIFAR10样本和使用FGSM扰动的样本的多重lid。可以很容易地看到，当将所有k个生长率样本视为一个向量时，multiLID中的几个特征轮廓将被集成到非常相似的LID估计中，同时具有判别性。MultiLID有利于利用不同的特征增长率曲线。

图2：每个k的100个样本的clean和FGSM集的LID特征的可视化。该网络是在CIFAR10上训练的WRN 28-10。对于干净的数据集，最近邻的特征值(x轴上的低值)明显更高。右图显示了两组剖面的均值和标准差。

4实验

为了验证我们提出的multiLID，我们在CIFAR10、CIFAR100和ImageNet上进行了广泛的实验。我们在不同的数据集上训练了两个不同的模型，一个是wide resnet (WRN 28-10) [Zagoruyko和Komodakis, 2017, Wu等人，2021]，另一个是VGG-16模型[Simonyan和Zisserman, 2015]。当我们使用原始数据集的测试样本作为干净样本时，我们使用各种对抗性攻击生成对抗性样本。从干净的和对抗性的数据中，我们在ReLU激活的输出处提取不同层的特征映射。我们对每种攻击方法使用该数据的2000个样本的随机子集，并从特征映射中提取multiLID特征。从这个随机子集中，我们采用80:20的训练测试分割，即我们有3200个样本的训练集(1600个干净的图像，1600个受攻击的图像)和400个图像的平衡测试集。这种设置是在Lee*等，2018;Lorenz等，2022]*使用过。所有实验均在3块Nvidia A100 40GB gpu上进行，用于ImageNet和3块Nvidia Titan 12GB gpu上进行，用于CIFAR10和CIFAR100。

数据集

在Robustbench2上排名的许多对抗性训练方法都是基于WRN 28-10 [Zagoruyko and Komodakis, 2017, Wu et al.， 2021]架构。因此，我们还对基线WRN 28-10进行评估，并使用干净的示例进行训练。CIFAR10: CIFAR10 WRN 28-10在测试集上达到**96%的测试精度，VGG-16模型达到72%**的顶级精度[Lorenz et al.， 2022]。然后我们对测试集应用不同的攻击。

CIFAR100:过程等于CIFAR10数据集。我们报道WRN 28-10的测试准确率为83% (VGG-16达到81%)[Lorenz等，2022]。

ImageNet: PyTorch库为ImageNet提供了预训练的WRN 50-2 [Zagoruyko and Komodakis, 2017]。作为测试集，我们使用来自ImageNet的官方验证集，验证精度达到80%。

攻击方法

我们从六种最常用的对抗性攻击中生成测试数据:FGSM, BIM, PGD(-L∞)，CW(-L2)， DF(-L2)和AA，如2.1节所述。对于FGSM、BIM、PGD和AA，我们使用常用的扰动大小ε = 8/255, DF限制为20次迭代，CW限制为1000次迭代。

每个架构的层特征选择

根据式(4)，对于WRN 28-10和WRN 50-2，我们关注ReLU激活层，而在每个残差块中，我们取最后一个。这导致WRN 28-10有13个激活层，WRN 50-2有17个激活层来计算多lid表示。这与[Yang et al.， 2021]中提出的设置不同，该设置建议使用三个卷积块的输出。在[Ma et al.， 2018]中，只考虑了更简单的网络架构，并考虑了每层输出处的特征映射来计算LID。对于VGG-16架构，根据[Harder et al.， 2021]，我们取所有激活层的特征，即总共13层。

LID估计中的小批量大小

正如在[Ma et al.， 2018]中所激发的那样，我们使用默认的小批量大小|B| 100来估计multiLID值，k选择为小批量大小的20% [Ma et al.， 2018]。正如上文所讨论的以及之前在[Amsaleg等人，2015]中从理论上论证的那样，LID的MLE估计器在如此小的样本上受到影响，然而，当用于对抗性检测时，已经提供了合理的结果[Ma等人，2018]。我们提出的multiLID可以在所有数据集的计算负担得起的设置中执行得非常好。

4.1结果

在本节中，我们报告了我们的multi - LID方法的最终结果，并将其与竞争方法进行了比较。在表1中，我们将原始**LID [Ma et al.， 2018]**的结果与我们提出的multiLID方法的结果进行了比较，这两种模型类型，即wide-resnets和VGG-16模型在CIFAR10、CIFAR100和ImageNet三个数据集上的结果。对于LID和所提出的multiLID，我们从网络中相同的层提取特征以方便直接比较。虽然LID已经取得了总体良好的结果，但所提出的multiLID甚至可以在AUC和F1分数方面完美地区分这些数据上的良性和敌对图像。

在表2中，我们进一步比较了在WRN 28-10上训练的CIFAR10与一组最广泛使用的对抗性防御方法的AUC和F1得分。首先，我们列出了**[Yang等人，2021]关于防御核密度(KD)、LID和MD的结果作为基线。根据[Yang等人，2021]，KD在攻击中没有表现出很强的结果，LID和MD在其设置中产生了更好的平均性能。为了完整性，我们还通过显示R(x)(通过β变分自编码器(β- vae)重建样本x)报告了结果CD-VAE [Yang等人，2021]**。在这种条件良好的潜在空间中编码可以帮助对抗检测，但也很耗时，并且需要对β-VAE进行特定任务的训练。

当我们在与[Yang et al.， 2021]相同的网络层上复制LID时，我们的结果报告在表2的第二个块中。虽然我们不能精确地重现[Yang et al，2021]中的数字，但所得的AUC和F1分数在同一个数量级上，在某些情况下略好。在这种情况下，LID的性能略低于MD、Spectral-BB和SpectralWB [Harder等人，2021]。

我们在第三块中对完整的multiLID进行了不同的消融更改。当用eq.(9)中的未展开特征替换LID时，我们已经在所有设置中获得了98%以上的F1分数。防御BIM是最难的。下一行删除所使用的特征映射。当用每个块中的最后一个ReLU输出替换[Yang et al.， 2021]3中使用的卷积特征时，我们观察到即使在普通LID特征上也有性能提升。将这两种方法结合起来可以得到几乎完美的结果。其他数据集的结果见表3。在此特征基础上，使用随机森林分类器而不是逻辑回归进行分类时，可以得到始终如一的f1分数和AUC分数100%。在包括表1在内的所有其他表中，我们将此设置称为multiLID。

5消融实验

在本节中，我们将深入了解影响我们的方法的不同因素。我们研究了提取特征的激活图的重要性，以及达到良好分类性能所需的multiLID特征的数量。在附录中提供了考虑的邻居数量以及以ε表示的攻击强度的消融。

5.1非线性分类的影响

在本节中，我们将更详细地比较表2最后两行的方法，并对所有三个数据集进行比较。结果如表1所示。虽然简单逻辑回归(LR)分类器已经在所有攻击和数据集上实现了非常高的AUC和F1分数，但随机森林(RF)可以进一步将性能提高到100%。

5.2特征重要度

随机森林的特征重要度(可变重要度)描述了需要检测的相关特征。在图3中，我们绘制了在CIFAR10数据集上训练的WRN 28-10的multiLID特征的特征重要性。特征重要性按递增顺序表示所选ReLU层的重要性(参见[Lee et al.， 2018])。最后一个特征/层显示出更高的重要性。对于攻击FGSM，第三个也是最后一个特征可能非常相关。

5.3 multiLID特征的研究

根据eq.(2)，使用所有的邻居k进行分类。这一次，我们研究了二元分类器逻辑回归在完整multiLID特征上的性能。例如，在图3中，我们考虑13层和每个层的聚合ID特征。因此，每个样本的multiLID特征的数量可以计算为layers × k=13*20，当k = 20时，得到260个特征。在图4中，当根据随机森林特征重要性依次使用更多特征时，我们根据LID特征向量的长度可视化AUC。在ImageNet上，可以看到DF和CW需要这些LID特征向量的完整长度才能获得最高的AUC分数。[Lorenz et al.， 2022]也报道了DF和CW攻击更有效的观察结果。在这些判别性很强的特征上使用非线性分类器，我们甚至可以获得完美的F1分数(参见5.1节)。

5.4邻居数量的影响

我们用**不同的epsilons (L∞和L²)的AutoAttack基准中的APGD-CE攻击来训练LID。在图5中，我们比较了不同规范下的RF和LR。随机森林在两个规范上都成功了。在较小的扰动大小下，LR分类器的AUC分数下降。在最优扰动大小(L∞:ε = 8/255, L²: ε = 0.5)**下，LR的AUC得分最佳。与LR相比，RF分类器提供了出色的结果。此外，为了节省计算时间，k = 3个邻居就足以达到较高的精度。

6结论

在本文中，我们重新审视了LID的MLE（极大似然估计）估计，这已经在以前的对抗性检测工作中使用。对提取的LID特征及其理论属性的分析使我们能够使用未折叠局部增长率估计来重新定义基于LID的特征,它比聚合LID测量更具判别性的

局限性。虽然我们的方法允许我们在考虑的测试场景和给定的数据集中获得几乎完美的结果，但我们并没有声称已经解决了实际问题。我们使用了先前工作中提出的评估设置(例如[Ma et al.， 2018])，其中每种攻击方法都是单独评估的，并且具有恒定的攻击参数。对于在真实场景中的部署，需要验证检测器在潜在伪装机制下的鲁棒性。关于我们的方法从一种攻击到另一种攻击的可转移性的扩展研究可以在补充材料中找到。它在这方面初步显示出有希望的结果，但也留下了进一步改进的余地。

附录

A.邻居数量和攻击强度ε的影响

我们使用来自AutoAttack基准的APGD-CE攻击来训练LID和multiLID，用于不同的扰动幅度，即使用不同的epsilons (L∞和L2)。在较小的扰动大小上，逻辑回归(LR)分类器的AUC分数正在下降，这是意料之中的。在最常用的扰动大小(L∞:ε = 8/255和L2: ε = 0.5)上，LID显示出最佳的AUC分数。在所有情况下，multiLID分类器都比LID提供更好的结果。此外，为了节省multiLID的计算时间，k = 10个邻居就足以进行高精度的对抗检测。

B.攻击可转移性

在本节中，我们对表4中的LID和表4中的multiLID模型的攻击可转移性进行了评估。在现实世界的应用程序中，攻击方法可能是未知的，因此在一种攻击方法上训练的检测器对不同的攻击表现良好是一个期望的特征。我们在两个方向上求值。随机森林(RF)分类器在LID和multiLID上都显示出更高的可转移性。攻击元组(pgd↔bim)、(pgd↔aa)、(aa↔bim)和(df↔cw)产生非常高的双向攻击可移植性。然而，实验也表明并非所有的组合都能成功地传递，例如在ImageNet中(fgsm↔cw)。这为进一步的研究留下了空间。