对抗样本防御研究中的评估缺陷与代码漏洞分析

(又一个)在IEEE S&P 2024被攻破的对抗样本防御

IEEE S&P 2024(顶级计算机安全会议之一)再次接受了一篇存在简单攻击即可攻破的对抗样本防御论文。该论文包含数学上不可能的声明,未遵循对抗鲁棒性评估的推荐指南,且其自身图表就提供了评估方法错误的所有必要证据。

调查发现,该论文的评估代码存在漏洞。仅修改一行代码即可攻破防御,将模型准确率降为0%。在将漏洞告知作者后,作者提出了新的防御组件来防止此攻击。但这个未在原始论文中描述的新组件存在第二个漏洞。同样,通过修改一行代码,可以攻破这个修改后的防御。

作者表示正在为第二次攻击制定另一个修复方案。但六周过去,他们仍未能描述必要的修复措施、提供代码或指出论文中描述修复的位置。随后向S&P程序主席求助也未获得新信息。由于会议将在两周后召开,已无法继续等待。一旦获得信息,将更新本文分析任何提议的变更。

更新!(2024-05-27):作者提供了针对第二次攻击的修复方案,但该方案同样无效。第三次通过修改一行代码即可攻破防御。

概述

本文包含两个故事:

  1. 一篇存在不可能声明的论文再次被顶级会议接受(去年会议也发生类似情况),本文旨在传授足够的对抗样本防御评估知识,使读者能发现评审者未能发现的错误。
  2. 针对特定防御论文的故事:论文被顶级会议接受后,作者在被告知漏洞后修改防御机制,但修改后的版本仍存在漏洞,且无法提供修复细节。

这两个问题并非该论文独有。对抗机器学习正成为重要研究领域:如果模型易被操纵做出恶意行为,将无法广泛部署机器学习模型。如果在顶级会议接受的论文中连基础问题都无法正确处理,前景令人担忧。

故事一:有缺陷的评估

背景:什么是对抗样本?

对抗样本是使机器学习模型出错的输入。例如,研究人员展示了如何制作对人类看起来正常但使自动驾驶汽车误认为是限速标志的对抗性停止标志;或近期如何构建使ChatGPT输出其原本拒绝生成的仇恨文本的对抗文本。

随着机器学习模型在大型企业中的广泛应用,对抗样本从纯学术关注变为实际问题。模型部署越多,攻击者越有动机尝试攻破它们,因此解决此问题变得重要。

对抗样本防御是使模型对这些攻击具有鲁棒性的方法。过去设计防御非常困难。作者已发表多篇论文攻破防御,总计攻破超过30个已发布防御及约12个未发布防御。(并非唯一攻破防御的研究者。)可以说:设计防御非常困难。

防御首先提出特定的鲁棒性声明。本节讨论的声明类型称为最大范数鲁棒性或L∞鲁棒性。

此类声明表示:如果攻击者对图像中每个像素的修改不超过特定量,模型仍将保持准确。例如,在MNIST数据集(手写数字数据集)上,

对抗样本是指通过对输入数据进行微小改动,就能够欺骗人工智能系统,导致系统产生误判或错误行为的样本。对抗样本是AI安全领域的一个重要问题,因为它可能导致人工智能系统在实际应用中产生严重后果。 对抗样本的生成方法有很多,包括添加噪音、修改像素值等。对抗样本的目的是让系统误判,以此来测试和评估AI系统的安全性和鲁棒性。对抗样本的设计是一个技术活,需要深入理解AI模型的工作原理,并且具备一定的数学和算法基础。 对抗样本研究的目标之一是找到一种普遍适用于各种AI模型的对抗样本生成方法。目前已经有一些方法被提出,如FGSM(快速梯度符号法)、PGD(投影梯度下降法)等。这些方法通过在输入样本中添加或修改一些微小的扰动,能够使得AI系统出现误判。 AI安全领域研究对抗样本的目的是提高AI系统的鲁棒性和安全性。通过研究对抗样本,可以帮助发现和修复AI系统在实际应用中存在的漏洞缺陷。同时,对抗样本研究也有助于推动AI系统的发展,使其更加健壮和可靠。 然而,对抗样本也可能被恶意使用,例如攻击识别系统、篡改图像等。因此,研究对抗样本不仅要关注如何生成对抗样本,还要关注如何防御和抵抗对抗样本攻击。AI安全研究者需要不断改进算法和技术,提高AI系统的对抗样本鲁棒性。 总之,对抗样本是AI安全领域的一个重要问题。研究对抗样本有助于发现和修复AI系统的漏洞缺陷,提高AI系统的鲁棒性和安全性。然而,对抗样本研究也需要关注如何防御和抵抗对抗样本攻击,以确保AI系统能够在实际应用中的安全可靠性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值