Stetman读peper小记：INVERSENET: Augmenting Model Extraction Attacks withTraining Data Inversion

本文链接：https://blog.youkuaiyun.com/Stetman/article/details/126306306

本文介绍了一种新的模型提取后门攻击方法INVERSENET，该方法通过减少查询次数及选择高置信度样本，提高了攻击效率及模型拟合度。通过对替代模型的构建、反演样本的选择、反向训练样本的生成以及再培训替代模型四个步骤，实现了对云服务平台模型的有效攻击。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：笔者本周阅读了（Xueluan Gong, Yanjiao Chen , Wenbin Yang, Guanghao Mei and Qian Wang）关于模型提取的后门攻击的论文INVERSENET。其应用了不同于以往后门攻击的方式，从而能避免被提供模型的云服务平台应用的防御策略发觉并且与原被害模型有更高拟合度。

Content

1. Introduction

2. Threat Model

3.INVERSENET: Attack Strategy

4.Implementation and Evaluation

Introduction

文章作者设计的后门攻击INVERSENET是针对机器学习即服务（MLaaS）。如今，很多大型互联网公司通过平台向用户提供复杂的神经网络。客户端通过API直接使用该模型，通过查询获取预测结果。整个过程中，用户始终不会接触到模型。而后门攻击者想获取模型，一方面用来谋取利润（类似盗版），另一方面可以对其进行研究并进行后门攻击。

此前也有不少研究者提出了一些提取模型的方式：如2018年学者提出的使用侧通道来推断深度神经网络的深度，同年研究者提出了第一种超参数提取方法，用于不同范围的机器学习模型；2019年学者提出了一种名为KnockoffNet的迭代模型提取策略，该策略通过强化学习构建查询数据集；2020年研究者提出ACTIVETHIEF，使用主动学习机制从公共数据集中选择样本进行查询。

作者认为模型提取目前存在两个挑战：

1.在有限查询次数下构建替代模型。查询次数过多不仅会大大提高查询成本，而且会引发平台方警觉、被防御措施发现，导致攻击失效；

2.从自然数据样本(来自公共数据集)中了解到关于受害者模型的有用信息。

在作者设计了INVERSENET中，使用coreset算法来选择最具代表性的样本以减少查询次数，过开发一种创新的模型反演方法，只选择置信度高的数据样本来构建反演模型，以更少的查询来构建一组可靠的反演数据样本。然后用反向数据样本对初始替代模型进行再训练，得到最终的替代模型。

Threat Model

作者设定的攻击场景是一个黑盒场景，攻击者的唯一访问是通过MLaaS提供的API。在DNN工作时，一般返回一个m维预测向量的置信度，m为类的数量；作者考虑最困难的情况，即API只返回类标签(置信度最高的类)，而不返回向量展现置信度得分。同时，攻击者对模型毫无了解，只有公共数据集来查询被攻击模型以收集有用的信息。

INVERSENET: Attack Strategy

如图所示，作者设计的INVERSENET共分为四步进行执行：1.构建替代模型；2.选择反演样本；3.反向训练样本；4.再培训替代模型。作者做了如下概括：

• Initiating substitute model. To start with, we initiate a primitive substitute model by querying the victim model using carefully selected samples from the public dataset based on the coreset algorithm.
• Selecting samples for inversion. Given the primitive substitute model, we intend to improve the model with inversed training samples. We propose to inverse training samples based on samples with high confidence scores from the public dataset, which considerably reduces the query cost.
• Inversing training samples. For each class of the victim model, we are able to inverse a single representative average sample. To enrich the inversed training samples,we leverage data augmentation techniques.
• Retraining substitute model. We use the inversed training samples to query the victim model, based on which the substitute model is retrained to reach a high similarity with the victim model.

Initiating Substitute Model

一般替代模型是从Caffe Model Zoo取一个原始模型进行初始化，而作者采用的方法是过使用coreset数据样本的查询结果来建立我们的初始替代模型，这些数据样本最能代表公共数据集的整个数据样本。

coreset算法：即为选择信息量最大的数据样本，作为一个能代表整个数据集的“核心集”。方法大致为首先，从公共数据集中随机选取一组k0种子样本S0。每个都被标记为集群的中心。在第i次迭代中，选取距离当前聚类中心Si−1最远的K个样本。每个选择的样本被添加到数据中心集，用于选择下一个样本。形式为：

在一定的迭代次数后得到一个样本集合，用它进行查询，得到对应标签后，用其进行训练。

Selecting Samples for Inversion

选择数据有两种常见做法：1.使用主动学习或强化学习技术从公共数据集中选择更多的样本；2.综合对抗样本来学习受害者模型的决策边界。而作者采用的是不同以往的方法：模型反演方案。作者发现，具有高置信度分数的样本对于生成高质量的反向数据样本更有用。同时采用初始替代模型来判断样本置信度是否高，而不是通过查询受害者模型来获取置信度评分，以节省查询成本，因为初始替代模型已经学习了受害者模型的一些特征，具备相关能力。

选择置信度高的样本：选择方法实际上非常简单，何谓置信度高的样本，即是人工智能认为该样本被划分到某类可能性非常大。如此，置信度高的样本可以简单理解为距离决策边界足够远的样本。选择时，我们只要对样本进行扰动，直至DNN做出错误判定。最终，需要最大扰动才能“推过界”的前几个样本即是我们需要的置信度高的样本。

Inversing Training Samples

取得样本后，接下来即是生成攻击模型的反向训练样本，反演过程可以看作是一个编码器-解码器架构，如下图所示。

反演过程有三个主要步骤。首先，将样本输入到被攻击的模型FV中，获取其预测向量;其次，利用截断方法训练反演模型GV，即将FV的预测结果截断到训练数据集上预测向量的同一维，使GV最大限度地恢复反演样本。它还有助于防止GV的过拟合。

训练方式即是，由于设定情况下攻击者获取的只有判断标签而没有置信度向量，因此直接将其设为除标签为1，其他全为0的向量，以此进行训练。如此便将FV的预测结果截断到了同一维，进而GV最大限度地恢复反演样本。

由于反演模型对每个类只产生一个反向平均样本，这不足以对替代模型进行再训练。因此，我们通过增加反向样本来扩大再训练集。我们将截断后的预测向量的值变化到反演模型中以获得同一类的多个反演样本。

Retraining Substitute Model

用反向数据集中的样本查询受害者模型，然后使用这些查询返回的标记响应重新训练初始替代模型，从而得到最终性能良好的替代模型。

Implementation and Evaluation

作者将INVERSENET与最新的提取攻击ACTIVETHIEF、KnockoffNet 和Papernot 进行比较。如图所示，所有算法的查询预算都是相同的情况下，INVERSENET比基线具有更高的一致性。

此后，作者分了五个方向评述：

Impact of query budget

总的查询预算是K = K1 + K2 + K3。在实验中，K1、K2和K3的比值固定为0.45:0.45:0.1。随后，我们将通过消融研究评估每个查询阶段的有效性。如下图所示，随着查询预算的增加，替代模型的性能显然会变得更好。当查询预算从1k增长到20k时，协议显著增加，特别是对于GTSRB和CIFAR10模型。

但是，随着预算的进一步增加，改善的速度减慢。在查询预算为10k时，MNIST替代模型的一致性为93.2%，而GTSRB模型的一致性为86.1%，更复杂的CIFAR10模型的一致性为75.4%。我们还在附录中展示了具有完全置信度的INVERSENET结果。对于真实的API, INVERSENET在预算仅为1k的情况下达到76.87%的一致性，在5000个查询的情况下达到80.53%的一致性，这对于在攻击者不知道训练集的情况下提取真实的API来说是非常有竞争力的。

Impact of substitute model structure

作者分别采用与原模型结构相同的Classifer与三种不同的模型结构CNN32, CNN42和ResNet18来替代模型。如表所示，当替代模型的结构与黑匣子受害者模型相同或属于同一家族时，一致性较高。

The effectiveness of high confidence score samples

作者对反向样本使用随机选择的样本和使用高置信度的样本进行比较。（查询数均设为10k）结果如图所示。

Ablation study on the effectiveness of queries

作者对K1,K2,K3的作用进行了研究，结果如下表。我们可以看到K1或K2中的任何一个增加，协议都会增加。但K3增加，协议略有上下波动，但基本变化不大。然而，如果将K3设为0，协议将减少约2%。这表明K3对逆数据集进行增广是有帮助的，但贡献有限。因此作者认为应该将更多的预算分配给K1和K2，而较小的K3就足够了。

Evading state-of-the-art defense

PRADA是一种针对模型提取攻击的防御策略。基于攻击者使用的查询分布通常偏离正态分布(高斯分布)的假设，PRADA跟踪一个新的输入样本和同一类中所有之前的样本之间的最小距离，以建模查询的分布。ShapiroWilk检验统计量用于量化查询的分布是否符合正态分布。KnockoffNet和ACTIVETHIEF都只使用来自公共数据集的自然样本，因此不会被PRADA检测到。但KnockoffNet和ACTIVETHIEF的性能并不理想。Papernot 利用对抗性样本进行查询，因此很容易被PRADA检测到，因为查询分布远不是正态分布，如图所示。