2022-06-21_2022-06-25t00:00:00.000+0800-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40872714/article/details/125380271

本文介绍了对抗性样本生成的一种新方法，通过正交梯度下降和选择性梯度下降策略来规避检测防御。这种方法避免了传统方法中梯度不平衡的问题，通过在分类损失和检测约束之间进行选择性优化，确保每次更新都能改善其中一个目标。同时，正交梯度下降解决了优化过程中梯度方向相反导致的数值不稳定性，从而更有效地生成对抗样本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2022-06-21

Evading Adversarial Example Detection Defenses with Orthogonal Projected Gradient Descent

符号系统定义
分类模型 $f:\mathbb{R}^d \to \mathbb{R}^n$ ，输入 $x\in \mathbb{R}^d$ ，输出 $f(x)\in \mathbb{R}^n$ .
检测约束： $g:\mathbb{R}^d \to \mathbb{R}$ ， $g (x) < 0$ 满足条件， $g (x) > 0$ 不满足条件.
真实标签： $c (x) = y$ .
损失函数： $\mathcal{L}$ .
嵌入向量： $e (x)$ 表示输入 $x$ 在 $f$ 的中间层上的嵌入。除非另有指定，否则 $e$ 返回紧邻 softmax 激活之前的 logit 向量.

使用投影梯度法生成对抗样本
梯度投影法的基本思想：当迭代点 $x_k$ 是可行域 $\mathcal{D}$ 的内点时，取 $-\nabla f(x_k)$ 作为搜索方向；否则，当 $x_k$ 是可行域 $\mathcal{D}$ 的边界点时，取 $-\nabla f(x_k)$ 这些边界面交集上的投影作为搜索方向。
给定损失函数 $\mathcal{L}(f,x,t)$ ,输入参数分别是分类模型，训练样本，目标标签。给定约束条件 $S_\epsilon = \{z:d(x,z)<\epsilon\}$ ，优化目标定义为
$x^\prime = \argmin_{z\in S_\epsilon} \mathcal{L}(f,z,t)$
迭代步骤定义为
$x_{i+1} = P_{S_\epsilon}(x_i - \alpha\nabla_{x_i}\mathcal{L}(f,z,t))$
其中 $P_{S_\epsilon}(z)$ 表示 $z$ 在 $S_\epsilon$ 上的投影。例如，投影 $P_{S_\epsilon}(z)$ 在约束 $d(x,z)=\|x-z\|_\infin$ 下是通过把 $z$ 裁剪到 $[x-\epsilon, x+\epsilon]$ 。

选择性梯度下降
现有的用于对抗神经网络的检测策略的方法定义如下
$\argmin_{x\in S_\epsilon} \mathcal{L}(f,x,t) + \lambda g(x)$
其中， $\lambda$ 是一个超参数，它控制着欺骗分类器和欺骗检测器的相对重要性。
不同于上面的方式，文中没有最小化 $f$ 和 $g$ 的加权和，而是采用分步优化的方式，其攻击方法定义如下
$\mathcal{A}(x,t) = \argmin_{x^\prime:\|x-x^\prime\| < \epsilon} \underbrace{\mathcal{L}(f,x^\prime,t)\cdot \mathbb{I}(\it{f(x)\not=t)} + g(x^\prime) \cdot \mathbb{I}(\it{f(x)=t})}_{\mathcal{L}_{\rm{update}}(x,t)}$
这里的想法是，我们不是最小化两个损失函数的凸组合，而是根据 $f (x) = t$ 是否成立选择性地优化 $f$ 或 $g$ ，确保更新总是有助于改善 $f$ 的损失或 $g$ 的损失。
这种优化方式的另一个好处是，它将梯度下降步骤分解为两个更新，这防止了梯度不平衡问题：其中两个损失函数的梯度大小不相同，将导致优化过程不稳定。上面的公式可以简化为如下的形式
$\nabla\mathcal{L}_{\rm{update}}(x,t) = \begin{cases} \nabla \mathcal{L}(f,x,t) & \text {if $f(x) \not= t$,} \\ \nabla g(x) & \text{if $f(x)=t$.} \end{cases}$
正交梯度下降
上面的攻击方法在数学上是正确的，但是可能会遇到数值不稳定的困难。通常， $f$ 和 $g$ 的梯度指向相反的方向，因此，花费在优化 $f$ 上的每一步都会导致对 $g$ 进行优化的倒退。这将导致优化器在执行的每一步之后都不断地“撤消”它自己的进度。我们通过给出一个稍微不同的更新规则来解决这个问题，更新上面的公式如下
$\nabla\mathcal{L}_{\rm{update}}(x,t) = \begin{cases} \nabla \mathcal{L}(f,x,t) - \rm{proj}_{\it{\nabla \mathcal{L}(f,x,t)}} \it{\nabla g(x)} & \text {if $f(x) \not= t$,} \\ \nabla g(x)-\rm{proj}_{\it{\nabla g(x)}}\it{\nabla \mathcal{L}(f,x,t)} & \text{if $f(x)=t$.} \end{cases}$
其中 $\rm{proj}_{\it{\nabla \mathcal{L}(f,x,t)}} \it{\nabla g(x)}$ 表示梯度 $\nabla \mathcal{L}(f,x,t)$ 在 $\nabla g(x)$ 上的投影， $\rm{proj}_{\it{\nabla g(x)}}\it{\nabla \mathcal{L}(f,x,t)}$ 同理。这里使用到了数学上的施密特正交化，下面简单解释以下：
假设有两个线性无关的向量 $a$ 和 $b$ , 现在要将两个向量正交化。首先是保持 $a$ 不动，让 $a = A$ , 接下来寻找另一个向量 $B$ , 使得 $\bot B$ 。如下图， $p$ 是 $b$ 在 $a$ 上的投影， $B$ 就相当于 $b$ 的误差向量：
在这里插入图片描述
通过公式计算 $x$ ， $x$ 是一个标量
$\frac{a^\top b}{a^\top a}$
$ax=xa=\frac{a^\top b}{a^\top a}a$
$B = b - p$
结合公式中 $\rm{proj}_{\it{\nabla \mathcal{L}(f,x,t)}} \it{\nabla g(x)}$ 就表示 $p$ ， $\nabla \mathcal{L}(f,x,t) - \rm{proj}_{\it{\nabla \mathcal{L}(f,x,t)}} \it{\nabla g(x)}$ 就表示 $B$