对抗机器学习:攻击、防御与实验结果
1. 对抗攻击方法
在对抗机器学习领域,存在多种攻击方式,下面为你介绍几种常见的攻击方法。
- Carlini and Wagner Attack (CW) :这是一种较新的对抗攻击方法。它是一种迭代攻击,使用Adam优化器和特殊选择的损失函数,旨在找到比其他攻击更低失真的对抗样本。不过,其速度比其他攻击慢很多。该攻击基于不同的范数,包括L0、L2和L∞范数,形成了三种强大的攻击变体。以L2攻击为例,输入的扰动δ由辅助变量ω定义,其目标可以用数学公式表示:
- $\delta_{i}^ = \frac{1}{2}(\tanh(\omega_{i}+ 1)) - x_{i}$
- 然后对无约束的扰动$\delta_{i}^ $关于ω进行优化:$\min_{\omega} ||\frac{1}{2}(\tanh(\omega) + 1) - x|| {2}^{2} + cf(\frac{1}{2} \tanh(\omega) + 1)$
- 若考虑L2范数,优化问题变为$\min {\delta} ||\delta||_{2} + c \cdot f (x + \delta)$,约束条件为$x + \delta \in [0, 1]^n$
- 其中,目标函数$f (x’) = \max(\max{Z(x’) : i \neq t} - Z(x’) - k)$,$Z(x’)$是类i的预softmax输出,t是目标类,k是控制误分类置信度的参数。
- One - Pixel Attack :与之前需要基础模型梯度的
超级会员免费看
订阅专栏 解锁全文

758

被折叠的 条评论
为什么被折叠?



