文献阅读笔记Intellectual Property Protection for Deep Learning-Taxonomy, Methods, Attacks, and Evaluations-优快云博客

本文链接：https://blog.youkuaiyun.com/coreyckw/article/details/131682936

文献原文如下
[1] Xue M , Zhang Y , Wang J ,et al.Intellectual Property Protection for Deep Learning Models: Taxonomy, Methods, Attacks, and Evaluations[J]. 2020.DOI:10.48550/arXiv.2011.13564.
记录本人在阅读过程中做的笔记，有些图片可能没有上传到位，具体在文献原文中都可以查找到。

Abstrict

文章给出了当前的DNN IP 工作，并且提出了展望。
文章从六个方面对DNN IP工作进行分类，并且根据分类介绍了当前的工作，重点介绍当前工作面临的挑战，并且对这些方法在某些方面进行评估。
文章分析了针对模型保护方法的攻击（不太确定描述，须根据具体文章描述确定）
文章给出了综合评价DNN IP的方法
展望

Section1 Introduce

当前工作（模型水印等）面临的挑战:

当前大多数方法都是被动防御策略。
当前大多数方法无法有效的认证用户身份，进而提供版权管理功能。无法防御恶意用户攻击。
当前大多数的方法评估，都是评估方法的抗攻击性，没办法评估（攻击者主动攻击时）方法的健壮性和安全系数。攻击者可以采用大量高强度的攻击，进而摧毁DNN IP保护方法。
当前缺乏对DNN IP 方法系统的评估方法和评估指标。

章节描述：

Section 2 对DNN IP 方法分类
Section 3 已存在的DNN IP works
Section 4 三个级别的攻击，以及现存攻击的抗攻击性
Section 5 DNN IP Method 评估方法
Section 6 DNN IP面临的挑战，展望未来
Section 7 总结全文

Section2 Taxonomy

分类尺度：

Scenario：白盒和黑盒，类似于软件测试中的白盒和黑盒，实际上打多数都是黑盒，因为深度学习服务是云端提供的。
Mechanism：基于参数的（水印嵌入在参数中💡这种做法可能会影响模型精度），基于后门的，基于指纹的（使用模型对特定输入的所做出的预测的分布情况可以理解为决策边界附近的输入，得到的预测的分布情况，作为指纹，例如使用对抗样本作为指纹）
Capacity：表示水印方法需要嵌入的数据量。

zero-bit：方法只关注水印的存在与否（1或0），通常是产生一系列水印key，策略性地调整决策边界，之后利用这些水印key作为输入，对比模型正确性和临界值之间的差别。

multi-bit：方法验证多位信息。利用所有者的标记，设计一些类水印key和相应的标签，使用这些水印key集微调模型，使得水印嵌入到模型行为中，检测的时候利用水印key询问模型，在得到的结果中提取所有者标记，如果成功提取到证明该模型添加了水印。
Type：passive and active ，消极只是被盗之后可以验证是盗取的我的，积极可以做一些工作，预防被盗。
Function：Copyright Verification：利用健壮的水印表明模型的拥有者。Copyright management：管理用户的身份，提供授权控制。Integrity vverification：使用脆弱或者可逆的水印验证模型的完整性
Target Model：方法所保护的深度学习模型的类别，例如分类模型，识别模型，图片处理模型，以及联邦学习（分布式）模型。

分类尺度一图流

下图也描述了CNN IP发展历程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWuuMSsE-1689147055703)(assets/image-20230708143656154.png)]

Section3 Survey

已存在的用于多媒体的数字水印技术无法直接应用于CNN IP。主要有如下几个原因

不同于多媒体数据，模型本身的结构复杂，参数量巨大
大多的深度学习模型只提供访问APIs，已存在的数值水印技术大多需要访问内容才可以提取水印

CNN IP 挑战性

需要一个仅仅可以通过多次黑盒访问就可以准确验证的水印的算法。
水印嵌入不会导致模型精度降低
水印具有高检测率低误判率
用户可以微调或修剪模型来调整参数，导致原始嵌入水印失效。
水印应该具有健壮性，可以承受大量高强度攻击

如下是现有的一些人的工作，接下来会按照类别对他们进行总结分类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rlu31Xji-1689147055704)(assets/image-20230711164533809-1689065778148-1.png)]

一、场景分类：

[3]Uchida et al：白盒，基于参数，多bit，消极，版权验证，分类模型。

介绍：第一个DNN IP方法，他们使用额外的正则化损失来嵌入水印 ，嵌入到中间层的权重中。检测：水印可以从检测层提取出来。

优缺点：方法简单，但无法应用在黑盒情况下，额外的检测层会增加成成本，嵌入到权重中可能会影响模型性能。
[24]Wang and Kerschbanum：白盒，基于参数，多bit，消极，版权验证，分类模型。

介绍：基于对抗训练的水印方法，用于白盒场景下。他们构建了一个类似于对抗性网络的结构，模型训练/添加水印过程和水印检查是两个竞争方。
优缺点：不影响模型精度，拥有一定的健壮性，受怀疑的模型一般都是黑盒状态。
Rouhani et al. [5]：白盒&黑盒，基于参数，多bit，消极，版权验证，分类模型。

介绍：DeepSigns一般的嵌入水印方法，把水印嵌入到每一层的概率密度函数中，水印可由相应的输入集远程触发。

优缺点：黑盒场景可用

二、机制分类：DNN拥有大量的参数，可以记住主要任务之外的水印信息，水印的存在与否可以通过分析权重的变化判断

基于参数

Kuribayashi et al. [25]：白盒，基于参数，多bit，消极，版权验证，分类模型。

介绍：可量化的水印嵌入方法，在训练过程中改变参数可以量化水印的影响，可以使得嵌入水印的影响降到一个较低值。嵌入水印到完全连接层。

优缺点：实际场景是黑盒居多。

Feng and Zhang [26]:白盒，基于参数，多bit，消极，版权验证，分类模型。

介绍：补偿性，随机选择水印嵌入的位置，之后微调消除水印嵌入后的影响

优缺点：补偿精度，健壮性？

Wu et al. [27]：白盒，基于参数，多bit，消极，版权验证，图片处理模型。

介绍：输出带有水印，利用联合损失函数，训练hostDNN和水印提取网络，HostDNN可以完成任务并且输出带有水印的结果。

优缺点：

问题：输出图片带有水印，盗取的模型输出是否也拥有水印？如果拥有黑盒下就可以验证，为什么是白盒。

Maung et al. [28]：黑盒，基于参数，零bit，积极，版权管理，分类模型。

介绍：通过基于密钥的逐块像素变换对训练图像进行加密，用加密后的数据训练模型，用户只有输入加密后的图片才能获得正确的结果。

优缺点：加密过程是否够快。

Gomez et al. [49], [50]：

介绍：使用完全同态加密保护模型，数据，结果

优缺点：完全同态加密很慢，可能影响模型精度。

Lin et al. [29] ：

介绍：混乱权重，改变权重的位置，之后微调（为了不影响模型精度）

Xue et al. [30]：

介绍：基于参数编码的对抗扰动策略，只需要扰动非常小数量的参数

优缺点：低成本，主动。

基于后门

基于后门的水印嵌入主要思想是在训练过程中添加后门，遇到特定的输入时，后门被触发，水印得以显现，对比模型对后门key样例的预测准确性和临界值的差别，就可以验证水印。

1 如何添加水印->2 改进误报率->3 水印key的选择–>4 嵌入式应用–>5 水印生成–>6 授权第三方验证–>【水印和主任务无关，可能被移除】–>7 水印和主任务挂钩–>8 水印和模型准确性强相关–>【key标签值可能影响决策边界】–>9 用新的标签代替key原始标签–>10 混乱方法标记key标签–>【伪造攻击】–>11 单向链–>【模型提取攻击】–>12 抵抗提取攻击

Adi et al. [10]：实现后门水印嵌入

介绍：使用后门作为watermark key，使用过度参数化实现这一策略，后门key的label在真正label和原始预测label之外的类别中随机选择。验证阶段，比较水印key set的准确值和临界值。并且使用 commitment scheme 确立一个公开验证协议。
Guo and Potkonjak [11]：降低误报率

介绍：使用基于进化算法的方法产生和最优化触发，降低误报率。
Zhang et al. [8]：生成水印key

介绍：分别使用随机图片，其他数据集的不相关图片，训练图片和其他内容叠加来产生水印key，利用水印key微调预训练模型。检测阶段判断水印key的检测准确率和临界值的差别
n. Guo and Potkonjak [12]：

介绍：嵌入式应用，利用带有所有者标识的数据训练模型，当模型输入为带标识的输入时，会运行预先定义好的临时模型。
Li et al. [31]：框架

介绍：提出了一个盲水印DNN IPP框架，该框架的目的是找到和原始实例具有同分布的key实例，把模型和所有者明确关联。该框架把普通实例和特别标签作为输入，产生key instances，并且嵌入水印到DNN中。
Sakazawa et al[33]:第三方验证

介绍：累加与视觉解码，通过提供解码数据的子集允许第三方验证水印，
Jia et al. [34]：水印和主任务相关

介绍：把水印和模型的legal data联系在一起，水印被去除后，模型在legal data上的表现大打折扣。

优缺点：抵抗模型压缩攻击。
Li et al. [32]：模型精度和嵌入的参数有强依赖

介绍：只在模型初始训练过程中嵌入水印，模型精度和嵌入的参数之间有强关联。可以抵御移除攻击和添加新水印攻击。
Zhong et al. [18]：标记后门key标签

介绍：不使用key sample的标签，而使用新的标签，这样不影响决策边界。
Zhang et al. [19]：标记后门key标签

介绍：基于混乱的自动方法标记key的标签
Zhu et al. [35] ：抵制伪造攻击。

介绍：利用单项hash函数把触发样例和特定标签构成单项链。攻击者很难伪造这样的触发样例。
Szyller et al. [36]：抵抗提取攻击

介绍：动态对抗水印方案，对来自用户的少量查询动态嵌入水印来改变预测，攻击者如果使用种数据训练新的模型，带有水印的询问将成为后门触发key

基于指纹：

模型决策边界可以作为模型的指纹

1 对抗样本作为指纹–>【distill攻击】–>2 conferrable adversarial examples作为指纹–>3 指纹认证方法【但是两个不同模型可能对同一个对砍样本产生相同的反应】

Merrer et al. [13]：

介绍：使用对抗样本作为水印key（使用扰动产生对抗样本，在决策边界附近），微调模型决策边界使得特定的query可以验证水印。
Lukas et al. [37]：

介绍：使用 conferrable adversarial examples作为指纹，可以防止distill攻击
Zhao et al.[14]

介绍：AFA指纹认证方法，利用对抗样本作为指纹，小的改动不能改变或删除模型的指纹，利用对抗标记的可转移性判断是否是盗版，验证：对对抗样本的相应是否一致，但是两个不同的模型可能对同一个对抗样本产生相同的反应。

三、capacity

四、Type:被动版权验证，主动授权控制：

1模型分流–>2 转换模型预处理输入–>【ambiguity attack】–>3 嵌入认证层–>【开销大】–>4 passport-aware–>【缺乏用户身份管理】–>5 用户身份管理（低概率，高概率）–>6 额外分类管理用户–>7 特定置信度对抗样本管理用户–>【硬件版权】–>8

Tang et al. [38]：teacher and student

介绍：主模型被称为teacher模型，之后分流成一系列student model,不同的学生模型有不同的代码，只有输入正确的代码，学生模型才能正常工作。
Chen and Wu [39]：利用转换模型预处理输出，

介绍：模型只能为被授权者服务。具体实现就是，基于对抗样本训练一个转换模型，授权的用户可以使用该转换模型预处理输入，把处理好的输出给到DNN模型，才能获取准确的结果。未授权的用户无法访问转换模型。

优缺点：该方法不考虑用户的身份管理（即不区分不同的授权用户）
Fan et al. [40]：抵御ambiguity attack

介绍：嵌入特定的passport layers层，这可以瘫痪未授权用户访问神经网络的性能，同时在已证实的环境下维持模型性能。除非提供了一个合法的passport 否则DNN模型就不能很好的工作。

缺点：他们的工作需要把passport layer插入到每个卷积层之后，这回大大增加成本。除此之外，模型容易受到tampering attack和逆向工程攻击。
Zhang et al. [41]：passport-aware

介绍：利用passport-aware 正则化范式用于DNN IP protection。增加新的passport-aware branch，和模型一起训练，在测试过程中被丢弃。只有在身份验证的时候才增加该层。只有提供正确的passport才能使模型的性能表现正常。
Xue et al. [42]:用户身份管理

介绍：提出了一个版权管理框架，基于多触发后门技术，每一个合法的用户都有一些带有后门信号的画像，这些画像可以作为用户的指纹，并且有一定概率可以触发后门，验证用户的权限。只有模型所有者（拥有所有后门信号）才可以高概率的出触发后门，证明模型所有权。
Sun et al. [43]：额外的分类

介绍：提出了一个主动DNN IPP方法，他们利用额外的分类训练模型，这些额外的分类用于所有权验证，并且通过隐写图像分发每一个用户独一无二的身份信息。

Xue et al. [44]：特定置信度的对抗样本

介绍：利用特定置信度的对抗样本作用户的指纹，实现用户指纹之别和主动授权控制 for DNN
Chen et al. [23] :设备指纹

介绍：设备指纹被设计和编码，放到DNN权重中。指纹可在受信任的执行环境支持下，被提出出来用于验证DNN版权。确保只有合法的DNN program可以产生匹配的指纹，允许它在目标设备上运行。

五、Target Models：大多都是分类模型，少量图片处理模型

【图片处理中的水印1 2 】【分布式学习中的水印 3】

Zhang et al. [20]：图片中看不见的水印

介绍：具体来说通过使用空间不可见水印策略在黑盒场景下嵌入看不见的水印。

Quan et al. [21]：超参数，辅助模型，可视化展示

介绍：利用超参数嵌入水印（图像处理任务）并且设计了一个辅助模型，水印验证过程中可视化展示水印信息。

Atli et al. [22] ：分布式训练

介绍：每当本地模型被收集到整体模型中时，模型被再次训练一遍嵌入后门/水印。他们还提出了一个水印图案产生方法，该方法产生特定类别的随机水印图案

六、Function：模型完整性验证：

利用某种水印方法，当模型被修改时，提取出来的水印就会变得很奇怪。

Szentannai et al. [46] ：完整性验证，fragile neural

介绍：提出了一个fragile neural网络防止模型盗版，构建一个和DNN功能相似的译本，他和原始模型有相同的准确率和回答，但它对任何参数的修改非常敏感。
Guan et al. [47] ：可逆（双向）水印方案

介绍：reversible(可逆，双向） watermarking scheme ，生成一个host sequence通过柱状图变换嵌入水印，模型被恶意修改，提取出来的水印信息将会变得非常不同。

Section4 Attack on DNN IPPW

本文把针对DNN IPPW的攻击分为三类（由弱到强）

Level 1: 模型修改

攻击者窃取模型后，对模型进行调整，压缩等，之后把模型作为MLaaS提供服务。大多数已存在的水印方法都有一定的健壮性，可以抵制模型修改。模型修改包括如下几个方法（这些也可能发生在无意识情况下）：

（1）模型微调，可以利用预训练模型微调出很多不同的模型，携带水印信息的参数可能会在这个过程中改变，因此水印要有一定的健壮性。【简单的微调无法移除水印，但是精心策划的微调可以

（2）模型修剪/参数修剪，该方法最初用在嵌入式设备中，以减少内存和计算开销，然而该方法也可能导致水印失效，例如使用修剪方法稀疏权重，使得水印失效。

（3）模型压缩，模型压缩可以显著减低性能和计算开销，但有损压缩会改变模型参数，导致水印检出失效。

（4）模型重新训练，利用新的训练集再次训练模型，可能移除水印或者降低水印的影响。

Level 2: Evasion Attacks and Removal Attacks

大多数的水印算法可以防止模型无s意的修改，但是无法防止攻击者有意的攻击。例如removal attack：攻击者尝试移除水印；Tampering：攻击者知道有水印，尝试篡改水印移除IP所有者的身份标识（不需要移除，只需要篡改使得IP所有者检测不出水印即可）；reverse-engineering：如果攻击者知道训练集，那么可以直接对隐藏层进行逆向工程。

模型水印可以通过各种方法被去除，即使去出不了也可以篡改水印，使得模型所有者无法验证。

Shafieinejad et al. [53]:去除基于后门的水印

介绍：研究了DNN中基于后门的水印方案的去除攻击，攻击方法分别为白盒攻击黑盒攻击和属性推理攻击，它们表明攻击者可以仅依靠公共数据而不访问训练集触发集或模型参数来去除水印，他们还提出了一种检测模型是否包含水印的方法。表明基于后门的水印不够隐蔽。
Sun et al. [54]：反转触发微调去除后门水印

介绍：利用Gan检测和反转模型触发，用反转后的触发微调模型，去除水印。
Hitaj and Mancini [62]：

介绍：证明，水印即使无法被去除，攻击者也有很多办法躲过模型验证
Chattopadhyay et al. [64]：GAN-实例-再训练

介绍：利用GAN产生新的实例重新训练网络，可以得到类似表现得模型，并且去除水印。
精心策划的微调可以移除水印，利用预训练DNN标记未标记的数据，移除水印所需要的标记数据的数量显著降低。

通过使用精心设计的学习率【数据增加方法和弹性权重加强】策略也可以去除水印。

也可以对输入进行扰动和转变使得触发失效，之后微调模型使得在该类别输入下性能表现较好。

Earlier works [3], [5] demonstrated that simple fine-tuning could not remove the watermark, but recent studies [55], [63], [65] have shown that improved fine-tuning can remove the watermark. Chen et al. [63] leverage unlabeled data to facilitate the fine-tuning based watermark removal. By using a pretrained DNN to label the unlabeled data, the number of labeled data required by the attacker for watermark removal can be reduced significantly. Chen et al. [65] propose a fine-tuning based watermark removal scheme by using carefully designed learning rate schedule. Specifically, they incorporate two techniques into the scheme, elastic weight consolidation and unlabeled data augmentation. Liu et al. [55] propose a framework to remove backdoor-based watermarks with limited data, named WILD. Specifically, a data augmentation method is proposed to imitate the behavior of the backdoor triggers. Aiken et al. [66] propose a DNN laundering scheme to remove backdoor-based watermarks. The approach consists of three steps: watermark recovery, watermarked neurons resetting, and retraining. Guo et al. [67] propose a watermark removal attack without prior knowledge. They use a preprocessing operation, which adds perturbation and transformations to the input, making the watermark trigger invalid. Then, they use fine-tuning with unlabeled data to improve the performance of the model

Level 3: Active Attacks

我们不仅仅需要考虑针对模型修改和逃避/移除攻击的健壮性，还要考虑水印对主动且强力的攻击的抗攻击性（如下所示）。

（1) ambiguity attacks，攻击者通过往模型中嵌入新的水印模糊身份认证过程，例如让模型认为是授权的输入。在传统的水印策略中，除非使用的是不可逆水印策略，否则水印不一定能准确验证身份。

（2）水印发现，检测水印，为后续攻击提供基础。

（3）水印复写，如果攻击者知道嵌入水印的方法，就可以复写水印。

（4）conclusion attacks，一组拥有同一个dnn不同指纹的用户可以策划一场conclusion攻击，训练一个functional model来躲过所有者的身份验证。

（5）询问修改攻击。攻击者修改询问来躲过验证。攻击者利用盗取的模型提供服务时，会主动检测query是否是水印验证询问，如果是就修改该询问，使得水印验证过程失效。

水印可以被检测出来，对抗性网络防止检测。

授权用户联合攻击，

Wang and Kerschbaum [68]：水印可以被检测出来

介绍：观察权重标准差，攻击者不仅可以发现水印，还可以获得水印的长度，后续可以用来复写水印。
Chen et al. [9] ：collusion attacks

介绍：用户可以利用各自带有水印的模型构建一个没有水印的模型。提出了一个解决方案，为用户设计独一无二的指纹，再DNN再训练阶段，利用特定指纹的正则化损失把每一个指纹编码进权重的概率密度函数中。
Wang and Kerschbaum [69]：对抗训练防止水印检测

介绍：利用其他的DNN检测水印。解决办法建立一个类似于GAN的对抗训练结构，水印嵌入和水印发现网络是两个竞争方。
Namba and Sakuma [7]：询问修改

介绍：key 检测，询问修改。抵御方法：利用指数权重嵌入健壮水印（只有参数具有足够大的绝对值时才用来预测）。

Section5 Evaluation

系统评估方法：
1. 在不同等级攻击下的表现
2. 综合特征
3. 描述方法的需求
基本功能性度量标准[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sCOAlqZJ-1689147055705)(assets/image-20230711103932000.png)]
抗攻击性度量标准[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HCZOrMsW-1689147055705)(assets/image-20230711104351542.png)]
不同场景下的度量标准

Section6 Challenge & Feature

挑战：

没有快速的水印检测方法
不仅要保护模型，还要保护数据，以及DNN模型的输出数据
DNN license：数据证书，数据可以被使用和训练。模型发布的时候模型的证书，限制模型使用复制传播等。模型证书包括技术层面和法律层面。技术层面包括：版权控制，用户身份管理，可以授权给不同的用户。选择和制定模型规范需要考虑如下几个部分
1. 使用场景
2. 用法，不同的用法要规定不同的限制，比如修改，复制，使用。
3. 是否商用
fragile watermark ，例如在验证模型完整性时需要用到这样的水印。
抗压缩，例如watermark key 图片压缩后在输入可能无法检测出水印。
抵制主动攻击。在保证水印可靠提取和模型性能不受影响的情况下抵制主动攻击，这是个开放性问题。
主动授权控制，锁住模型，授权用户才可以访问，难点在于如何根据不同的用户改变模型的功能或性能表现。
用户身份管理：
1. 如何确定用户表示
2. 如何授权和跟踪用户身份
3. 如何根据用户身份控制模型表现
4. 如何确定DNN能够区分授权和非授权用户
5. 如何使DNN能够区分不同授权的用户
6. 如何抵制由恶意授权用户发动的ambiguity攻击和collusion攻击。
缺乏系统的评估方法。尤其是面对主动攻击的时候缺乏评价方法。

商用
4. fragile watermark ，例如在验证模型完整性时需要用到这样的水印。
5. 抗压缩，例如watermark key 图片压缩后在输入可能无法检测出水印。
6. 抵制主动攻击。在保证水印可靠提取和模型性能不受影响的情况下抵制主动攻击，这是个开放性问题。
7. 主动授权控制，锁住模型，授权用户才可以访问，难点在于如何根据不同的用户改变模型的功能或性能表现。
8. 用户身份管理：