(又一个)在IEEE S&P 2024被攻破的对抗样本防御
IEEE S&P 2024(顶级计算机安全会议之一)再次接受了一篇存在简单攻击即可攻破的对抗样本防御论文。该论文包含数学上不可能的声明,未遵循对抗鲁棒性评估的推荐指南,且其自身图表就提供了评估方法错误的所有必要证据。
调查发现,该论文的评估代码存在漏洞。仅修改一行代码即可攻破防御,将模型准确率降为0%。在将漏洞告知作者后,作者提出了新的防御组件来防止此攻击。但这个未在原始论文中描述的新组件存在第二个漏洞。同样,通过修改一行代码,可以攻破这个修改后的防御。
作者表示正在为第二次攻击制定另一个修复方案。但六周过去,他们仍未能描述必要的修复措施、提供代码或指出论文中描述修复的位置。随后向S&P程序主席求助也未获得新信息。由于会议将在两周后召开,已无法继续等待。一旦获得信息,将更新本文分析任何提议的变更。
更新!(2024-05-27):作者提供了针对第二次攻击的修复方案,但该方案同样无效。第三次通过修改一行代码即可攻破防御。
概述
本文包含两个故事:
- 一篇存在不可能声明的论文再次被顶级会议接受(去年会议也发生类似情况),本文旨在传授足够的对抗样本防御评估知识,使读者能发现评审者未能发现的错误。
- 针对特定防御论文的故事:论文被顶级会议接受后,作者在被告知漏洞后修改防御机制,但修改后的版本仍存在漏洞,且无法提供修复细节。
这两个问题并非该论文独有。对抗机器学习正成为重要研究领域:如果模型易被操纵做出恶意行为,将无法广泛部署机器学习模型。如果在顶级会议接受的论文中连基础问题都无法正确处理,前景令人担忧。
故事一:有缺陷的评估
背景:什么是对抗样本?
对抗样本是使机器学习模型出错的输入。例如,研究人员展示了如何制作对人类看起来正常但使自动驾驶汽车误认为是限速标志的对抗性停止标志;或近期如何构建使ChatGPT输出其原本拒绝生成的仇恨文本的对抗文本。
随着机器学习模型在大型企业中的广泛应用,对抗样本从纯学术关注变为实际问题。模型部署越多,攻击者越有动机尝试攻破它们,因此解决此问题变得重要。
对抗样本防御是使模型对这些攻击具有鲁棒性的方法。过去设计防御非常困难。作者已发表多篇论文攻破防御,总计攻破超过30个已发布防御及约12个未发布防御。(并非唯一攻破防御的研究者。)可以说:设计防御非常困难。
防御首先提出特定的鲁棒性声明。本节讨论的声明类型称为最大范数鲁棒性或L∞鲁棒性。
此类声明表示:如果攻击者对图像中每个像素的修改不超过特定量,模型仍将保持准确。例如,在MNIST数据集(手写数字数据集)上,

最低0.47元/天 解锁文章
842

被折叠的 条评论
为什么被折叠?



