PyTorch使用快速梯度符号攻击（FGSM）实现对抗性样本生成（附源码和数据集MNIST手写数字）

本文链接：https://blog.youkuaiyun.com/jiebaoshayebuhui/article/details/127879701

本文介绍了对抗性机器学习的概念，特别是针对图像分类器的快速梯度符号攻击（FGSM）。通过在MNIST数据集上运行实验，展示了如何使用FGSM创建对抗样本，导致模型性能下降。随着扰动参数（epsilon）的增加，模型准确率降低，但对抗性样本更加明显。此外，讨论了攻击者在准确性与可感知性之间的权衡，并提供了源码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需要源码和数据集请点赞关注收藏后评论区留言或者私信~~~

一、威胁模型

对抗性机器学习，意思是在训练的模型中添加细微的扰动最后会导致模型性能的巨大差异，接下来我们通过一个图像分类器上的示例来进行讲解，具体的说，会使用第一个也是最流行的攻击方法之一，快速梯度符号攻击来欺骗一个MNIST分类器

每一类攻击都有不同的目标和对攻击者知识的假设，总的目标是在输入数据中添加最少的扰动，以导致所需要的错误分类。攻击有两者假设，分别是黑盒与白盒

1：白盒攻击假设攻击者具有对模型的全部知识和访问权，包括体系结构，输入，输出和权重。

2：黑盒攻击假设攻击者只访问模型的输入和输出，对底层架构或权重一无所知

FGSM攻击是一种以错误分类为目标的白盒攻击

二、快速梯度符号攻击简介

FGSM直接利用神经网络的学习方式--梯度更新来攻击神经网络，这种攻击时根据相同的反向传播梯度调整输入数据来最大化损失，换句话说，攻击使用了输入数据相关的梯度损失方式，通过调整输入数据，使损失最大化。

三、输入

对抗样本模型只有三个输入定义如下

1：epsilons 用于运行的epsilon值列表，在列表中保留0很重要，因为它代表原始测试集上的模型性能

2：pretrained_model 使用mnist训练的预训练MNIST模型的路径可自行下载

3：use_cuda 布尔标志如果需要和可用，则使用CUDA 其实不用也行因为用CPU也不会花费太多时间

四、FGSM攻击

介绍完上面的基本知识之后，可以通过干扰原始输入来定义创建对抗示例的函数，它需要三个输入分别为图像是干净的原始图像，epsilon是像素方向的扰动量，data_grad是输入图片

攻击函数代码如下

accuracies = []
examples = []

# Run test for each epsilon
for eps in epsilons:
    acc, ex = test(model, device, test_loader, eps)
    accuracies.append(acc)
    examples.append(ex)

运行攻击后输出如下

这里为epsilon输入中的每个值运行测试，随着值的增加，打印的精度逐渐降低

五、结果分析

第一个结果是accuracy与参数曲线的关系，可以看到，随着参数的增加，我们期望测试精度会降低，这是因为较大的参数意味着我们朝着将损失最大化的方向迈出了更大的一步结果如下

六、对抗示例

系统性学习过计算机的小伙伴们应该对tradeoff这个词并并不陌生，它意味着权衡，如上图所示，随着参数的增加，测试精度降低，但是同时扰动变得更加易于察觉，这里攻击者就要考虑准确性降低和可感知性之间的权衡。接下来将展示不同epsilon值的成功对抗

参数等于0时为原始干净且无扰动时的图像，可以看到，扰动在参数为0.15和0.3时变得明显

七、代码

部分源码如下



# In[1]:


from __future__ import print_function
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import numpy as np
import matplotlib.pyplot as plt





# 
# -  **pretrained_model** - path to the pretrained MNIST model which was
#    trained with
#    `pytorch/examples/mnist &