[论文笔记]TOWARDS DEEP NEURAL NETWORK ARCHITECTURES ROBUST TO ADVERSARIAL EXAMPLES 论文笔记

本文探讨了神经网络对抗样本的特性及防御策略,通过实验发现去噪自编码能有效去除对抗噪声,但堆叠后的网络仍易受攻击。进而提出了深度收缩网(DCN),一种端到端网络,其损失函数包含光滑惩罚项,实验证明DCN能显著提升神经网络对对抗样本的鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

[论文笔记]TOWARDS DEEP NEURAL NETWORK ARCHITECTURES ROBUST TO ADVERSARIAL EXAMPLES

一、前言

本文主要是为了探索对抗样本的特性和神经网络的拓扑结构。设计实验:通过加入噪声来破坏对抗样本、利用去噪自编码进行预处理。发现去噪自编码能够去除大量的对抗噪声,但是如果把去噪自编码和原来的深度网络堆叠起来,新的深度网络同样会收到对抗样本的攻击。因此本文借助 收缩自编码(CAE) 的思想,提出 深度收缩网(DCN),这是一个端到端的网络,其损失函数中包含光滑惩罚项,实验证明该网络可提高神经网络对对抗样本的鲁棒性。

二、注入噪声

(1)高斯加性噪声:只加在输入层(L1)或者输入层和隐层同时加入(L*)
在这里插入图片描述
随着高斯加性噪声标准差的增加,对抗样本的分类错误率逐渐降低,但是干净样本的错误分类率逐渐增加,因此在恢复的对抗样本和错误分类的干净样本之间应该有一定的权衡。

(2)高斯模糊噪声:只加在输入层
在这里插入图片描述
可以看出加入高斯模糊噪声后的卷积神经网在恢复对抗样本上更有效。

三、去噪自编码(DAE)

训练一个三个隐层(784-256-128-256-784)的去噪自编码,输出为对抗样本,输出为去噪后的样本,也可以堆叠多个去噪自编码。
在这里插入图片描述
表中的列label代表训练DAE的对抗样本所来自的模型,行label代表测试DAE的对抗样本所来自的模型,表中的值代表测试集上恢复的对抗样本在行label模型的分类错误率。可以看出所训练的去噪自编码在不同模型上具有迁移性,各种情况下都能恢复至少90%的对抗样本。

虽然去噪自编码在去除对抗噪声方面十分有效,但是如果将去噪自编码与原来的网络堆叠在一起,构成新的网络,它也可以产生新的对抗样本来攻击模型:
在这里插入图片描述

四、深度收缩网(DCN)

(1)收缩自编码(CAE)
考虑如下自编码:
在这里插入图片描述
其损失函数为:
在这里插入图片描述
收缩自编码的损失函数是在上述损失函数的基础上引入惩罚项:
在这里插入图片描述
该惩罚项的作用是使得输入的微小变化不会给隐层激活值带来太大改变。
(2)深度收缩网(DCN)
DCN是CAE的推广形式。
DCN的损失函数为:
在这里插入图片描述
其中 t ( i ) t^{(i)} t(i)为输入 x ( i ) x^{(i)} x(i)的真实标签, y ( i ) y^{(i)} y(i)为输入 x ( i ) x^{(i)} x(i)的预测标签。

上述惩罚项会带来很大的计算代价,因此对其近似处理:
在这里插入图片描述
虽然近似后的损失函数并不能保证是原损失函数的全局最优并且限制了神经网络的能力,但是确是保持输入在传播过程中不变性的一种有效计算方法。

参考文献
Shixiang Gu,Luca Rigazio,TOWARDS DEEP NEURAL NETWORK ARCHITECTURES ROBUST TO ADVERSARIAL EXAMPLES,2015.

Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值