【TPAMI】知识蒸馏+元学习+对抗防御

最新推荐文章于 2025-05-14 14:15:45 发布

原创最新推荐文章于 2025-05-14 14:15:45 发布 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #回归 #数据挖掘 #人工智能 #信息可视化 #知识图谱

论文背景

深度神经网络（DNN）在计算机视觉任务中表现出色，但极易受到对抗攻击的影响。当前的防御方法大多针对已知攻击，而对未知攻击的鲁棒性被严重忽视。此外，常用的自适应学习和微调技术在对抗防御中并不适用，因为这本质上是一个零样本问题。为解决这一挑战，本文提出了一种攻击无关的防御方法 Meta Invariance Defense（MID）。

主要贡献

提出了一种针对未知攻击具有泛化鲁棒性的 Meta Invariance Defense（MID）方法，通过模拟对已知和未知攻击的防御，选择和保留对两种攻击都具有相似激活的参数。
提出了一种包含对抗一致性、标签一致性和循环一致性约束的多一致性蒸馏协议，有助于学习攻击不变特征。
理论和实验证明了 MID 的可行性和优越性。

方法概述

元不变性防御（MID）

MID 结合了两阶段的元学习机制和多一致性蒸馏约束，训练学生编码器从攻击者池中提取攻击不变特征。具体步骤如下：

构建攻击者池：手动构建一个包含多种攻击方法的攻击者池。
元训练阶段：随机从攻击者池中抽取一组攻击，模拟已知攻击的防御训练。通过单步梯度下降优化临时模型，并计算元训练损失。
元测试阶段：选择未在元训练中使用的攻击，模拟未知攻击的防御测试。计算元测试损失。
联合优化：结合元训练和元测试的损失，训练具有泛化鲁棒性的学生编码器。

多一致性蒸馏协议

包括对抗一致性（AC）、循环一致性（CC）和标签一致性（LC）：

对抗一致性（AC）：约束学生模型学习与教师模型相似的特征，使用 KL 散度衡量教师和学生模型特征的概率分布差异。
循环一致性（CC）：确保学生模型学习的特征仅包含真实语义，不包含对抗扰动特征。通过教师解码器解码学生模型的输出，再重新编码，约束再生图像与原始图像的特征分布相似。
标签一致性（LC）：确保学生编码器和教师分类器能够准确预测攻击者池中采样的任何对抗样本。

实验结果

实验在多个常用数据集上进行，包括 MNIST、FashionMNIST、CIFAR10、SVHN、CIFAR100、Tiny-ImageNet-200、ImageNet-100 和 ImageNet-1K。针对不同数据集，使用了不同的骨干网络和基线模型。

对已知和未知攻击的鲁棒性：MID 在白盒和黑盒攻击下均表现出最佳的鲁棒性，对训练阶段使用的已知攻击（如 PGD 和 MIM）以及未见过的攻击（如 FGSM、BIM、CW、AA 和 JSMA）都能有效防御。
黑盒攻击的防御性能：MID 对来自不同源模型的黑盒攻击表现出更优的防御性能。
对启发式或高级未知攻击的测试：MID 在 CIFAR10、CIFAR100 和 Tiny-ImageNet 上对多种启发式或高级未知攻击（如 SPA、SSAH、stAdv、DDN、FAB 和 Adv-Drop）表现出优越性。

MID 的局限性和失败案例

准确率与鲁棒性的权衡：MID 未能完全解决良性样本准确率与对抗样本鲁棒性之间的权衡问题，良性样本的准确率有所下降。
计算成本：MID 的训练时间比对抗训练（AT）长 5 倍，但与经验风险最小化（ERM）相当。
泛化鲁棒性不足：未知攻击的性能与攻击者池中已知攻击的数量有关，缺乏针对未知目标攻击的防御能力。

结论

本文提出的 Meta Invariance Defense（MID）方法通过元学习和多一致性蒸馏协议，实现了对未知攻击的泛化鲁棒性。理论和实验证明了 MID 的有效性和优越性，为追求对未知攻击的泛化对抗鲁棒性提供了新的思路。未来工作可以探索测试时训练或在线适应新攻击的训练范式，以进一步提高模型的鲁棒性和泛化能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述