PGD_Towards deep learning models resistant to adversarial attacks_优快云

最新推荐文章于 2025-01-01 10:36:59 发布

原创

最新推荐文章于 2025-01-01 10:36:59 发布 · 3.1k 阅读

37 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习

本文从优化角度研究神经网络对抗鲁棒性问题，提出通用范式，涵盖以往方法并明确鲁棒模型条件。分析模型容量对鲁棒性的影响，指出其至关重要。通过实验表明，使用强攻击方法训练大容量网络，可有效提高模型对对抗攻击的抵抗能力。

Towards Deep Learning Models Resistant to Adversarial Attacks

Towards Deep Learning Models Resistant to Adversarial Attacks (PGD)，ICLR2018，涉及PGD和对抗训练。

Abstract:本文从优化的角度研究了神经网络的对抗鲁棒性问题。本文提出的方法提供了一个广阔、统一的观点来看待对抗样本的问题。本文提出方法的自然性质使得我们可以可靠的选择训练和攻击神经网络的方法，并且某种程度上是全局的。特别的，本文提出的方法在某种程度上提出了一种可以防御住任意攻击思路。这类方法训练神经网络极大的提高了网络对攻击的抵抗能力。

1. Introduction

对抗样本的存在一方面给神经网络的应用造成了安全隐患，另一方面也说明了目前神经网络/模型从鲁棒性角度来看，距离实际应用还远远不够。

之前也有很多方法用于攻击防御，例如防御蒸馏（defensive distillation)、特征压缩(feature squeezing)或其它对抗检测的方法。这些方法虽然在某种程度或应用上是有效的，但是它们也并没有明确地给出这些方法的适用性及适用范围。

本文思想是：

How can we train deep neural networks that are robust to adversarial inputs?

即如何训练模型，使其能对某一类攻击都鲁棒。本文从优化角度老研究神经网络的对抗鲁棒性问题。使用一个鞍点方程（min-max）来严格的描述对抗鲁棒性问题。这个方程使我们能精确的确定我们想要实现的安全保证问题（对哪些（哪类）攻击方法适用）。

Contributions：

给出了一种提高模型鲁棒性的方案.尽管目标（提出的鞍点问题）是个非凸、非凹的问题，但是最终这个问题还是可以求解的。并且，本文给出了证明，即基于一阶的方法可以可靠的解决这个问题。本文使用的是Projeccted Gradient Descent（PGD）方法，这是一种利用局部一阶信息求解的优化方法（局部线性是成立的）；
对模型容量对鲁棒性影响进行了分析.本文对网络结构在对抗鲁棒问题上的影响，结果表明模型的容量扮演着很重要的角色。为了抵抗对抗攻击，网络的模型容量需要大大的大于仅有干净样本情况下所需要的容量。这表明对抗鲁棒模型的边界可能比正常模型的边界更加复杂；
基于PGD对抗训练给出了一些结果与结论。基于以上的分析，本文使用PGD作为攻击方法生成对抗样本来训练鲁棒模型，训练得到的模型大大提高了模型鲁棒性。

2. An Optimization View on Adversarial Robustness

Traditional goal of model training:

$\mathbb E_{(x,y) \sim \mathcal D}[L(x,y,\theta)]$

然而，正常的训练方法通常对抗鲁棒性能很差，为了提高模型的对抗鲁棒特性，需要适当的对范式进行扩展（to augment the Empirical Risk Minimization）。本文方法是思路不是聚焦于提高某个特定方法的鲁棒性，而是提出了一个具有通用性的范式。

第一步，需要明确攻击的方法（生成对抗样本）。对攻击方法需要明确允许的扰动大小 $\mathcal S$ ；
对风险期望范式进行修正，不同于（1）式直接基于原始样本求期望，而是首先要基于原始干净样本生成对抗样本，然后再基于对抗样本求解风险期望：

$\min _{\theta} \rho(\theta), \quad \text { where } \quad \rho(\theta)=\mathbb{E}_{(x, y) \sim \mathcal{D}}\left[\max _{\delta \in \mathcal{S}} L(\theta, x+\delta, y)\right]$

最低0.47元/天解锁文章