[paper]Practical Black-Box Attacks against Machine Learning

本文探讨了一种对抗样本的黑盒攻击策略,该策略在不获取目标模型内部信息的情况下,通过构建替代模型进行攻击。利用雅可比启发式算法收集目标模型的输入输出数据,训练出相似的替代模型,进而生成对抗样本,导致目标模型误分类。此外,文中还介绍了基于雅可比的数据增强技术以减少查询次数,以及FGSM和JSMA两种对抗样本生成算法的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出了对抗样本的黑盒攻击策略,也就是在没有分类训练数据或模型知识的情况下生成对抗样本。 即通过构建一个综合数据集(通过收集目标分类器的输入和输出),以训练目标模型的替代品(本地构建的相似的模型),实现对目标模型的攻击。

三个关键属性:
(a)所需的功能仅限于观察输出类标签
(b)查询的标签数量为有限
(c)除了最新的DNN,该方法也适用于不同的ML分类器类型

黑盒攻击策略:

  • 训练替代模型:攻击者通过基于雅可比启发式算法(Jacobian based heuristic)的合成输入来查询模型并获得模型输出。通过输入和输出构建本地替代模型的训练集,通过此训练集训练替代模型,使替代模型和目标模型结构和内部参数相似,最终的目的是使替代模型和目标模型具有相似的决策边界。
  • 生成对抗样本:攻击者使用本地替代模型生成对抗样本,并且由于对抗样本的迁移性,可以造成目标模型的错误分类。

相较于机器学习模型来说,深度学习模型应用更加单一,例如CNN处理图像,RNN处理文本等。在选定模型种类后,就是决定模型的内部参数或者架构,可以通过训练不同参数或架构的模型,将效果最好的模型作为替代模型。
由于不能无限次的查询目标模型(容易暴露自己的攻击意图且不容易处理),因此作者提出了基于雅可比的数据增强(Jacobian-based Dataset Augmentation),可以大大减少需要查询的次数并且模型也会学习到相似的决策边界。

本地替代模型的训练算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值