5 12种生成对抗样本的方法

最新推荐文章于 2025-07-09 10:00:41 发布

转载

最新推荐文章于 2025-07-09 10:00:41 发布 · 1.8k 阅读

7 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/shona/p/11277740.html

文章标签：

#python #人工智能

本文详细介绍了12种对抗样本生成技术，包括Box-constrained L-BFGS、FGSM、JSMA、One Pixel Attack等，探讨如何通过扰动图像误导神经网络，涉及多种优化和迭代策略，揭示了对抗样本对深度学习模型的潜在威胁。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 Box-constrained L-BFGS

Szegedy[22] 等人首次证明了可以通过对图像添加小量的人类察觉不到的扰动误导神经网络做出误分类。他们首先尝试求解让神经网络做出误分类的最小扰动的方程。但由于问题的复杂度太高，他们转而求解简化后的问题，即寻找最小的损失函数添加项，使得神经网络做出误分类，这就将问题转化成了凸优化过程。

2 Fast Gradient Sign Method (FGSM)

Szegedy 等人发现可以通过对抗训练提高深度神经网络的鲁棒性，从而提升防御对抗样本攻击的能力。GoodFellow[23] 等人开发了一种能有效计算对抗扰动的方法。而求解对抗扰动的方法在原文中就被称为 FGSM。

Kurakin[80] 等人提出了 FGSM 的「one-step target class」的变体。通过用识别概率最小的类别（目标类别）代替对抗扰动中的类别变量，再将原始图像减去该扰动，原始图像就变成了对抗样本，并能输出目标类别。

3 Basic & Least-Likely-Class Iterative Methods

one-step 方法通过一大步运算增大分类器的损失函数而进行图像扰动，因而可以直接将其扩展为通过多个小步增大损失函数的变体，从而我们得到 Basic Iterative Methods（BIM）[35]。而该方法的变体和前述方法类似，通过用识别概率最小的类别（目标类别）代替对抗扰动中的类别变量，而得到 Least-Likely-Cla