Stetman读peper小记:INVERSENET: Augmenting Model Extraction Attacks withTraining Data Inversion

本文介绍了一种新的模型提取后门攻击方法INVERSENET,该方法通过减少查询次数及选择高置信度样本,提高了攻击效率及模型拟合度。通过对替代模型的构建、反演样本的选择、反向训练样本的生成以及再培训替代模型四个步骤,实现了对云服务平台模型的有效攻击。

注:笔者本周阅读了(Xueluan Gong, Yanjiao Chen , Wenbin Yang, Guanghao Mei and Qian Wang)关于模型提取的后门攻击的论文INVERSENET。其应用了不同于以往后门攻击的方式,从而能避免被提供模型的云服务平台应用的防御策略发觉并且与原被害模型有更高拟合度。

Content

1. Introduction

2. Threat Model

3.INVERSENET: Attack Strategy

4.Implementation and Evaluation

Introduction

        文章作者设计的后门攻击INVERSENET是针对机器学习即服务(MLaaS)。如今,很多大型互联网公司通过平台向用户提供复杂的神经网络。客户端通过API直接使用该模型,通过查询获取预测结果。整个过程中,用户始终不会接触到模型。而后门攻击者想获取模型,一方面用来谋取利润(类似盗版),另一方面可以对其进行研究并进行后门攻击。

        此前也有不少研究者提出了一些提取模型的方式:如2018年学者提出的使用侧通道来推断深度神经网络的深度,同年研究者提出了第一种超参数提取方法,用于不同范围的机器学习模型;2019年学者提出了一种名为KnockoffNet的迭代模型提取策略,该策略通过强化学习构建查询数据集;2020年研究者提出ACTIVETHIEF,使用主动学习机制从公共数据集中选择样本进行查询。

        作者认为模型提取目前存在两个挑战:

        1.在有限查询次数下构建替代模型。查询次数过多不仅会大大提高查询成本,而且会引发平台方警觉、被防御措施发现,导致攻击失效;

        2.从自然数据样本(来自公共数据集)中了解到关于受害者模型的有用信息。

        在作者设计了INVERSENET中,使用coreset算法来选择最具代表性的样本以减少查询次数,过开发一种创新的模型反演方法,只选择置信度高的数据样本来构建反演模型,以更少的查询来构建一组可靠的反演数据样本。然后用反向数据样本对初始替代模型进行再训练,得到最终的替代模型。

Threat Model

        作者设定的攻击场景是一个黑盒场景,攻击者的唯一访问是通过MLaaS提供的API。在DNN工作时,一般返回一个m维预测向量的置信度,m为类的数量;作者考虑最困难的情况,即API只返回类标签(置信度最高的类),而不返回向量展现置信度得分。同时,攻击者对模型毫无了解,只有公共数据集来查询被攻击模型以收集有用的信息。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值