文献原文如下
[1] Xue M , Zhang Y , Wang J ,et al.Intellectual Property Protection for Deep Learning Models: Taxonomy, Methods, Attacks, and Evaluations[J]. 2020.DOI:10.48550/arXiv.2011.13564.
记录本人在阅读过程中做的笔记,有些图片可能没有上传到位,具体在文献原文中都可以查找到。
Abstrict
- 文章给出了当前的DNN IP 工作,并且提出了展望。
- 文章从六个方面对DNN IP工作进行分类,并且根据分类介绍了当前的工作,重点介绍当前工作面临的挑战,并且对这些方法在某些方面进行评估。
- 文章分析了 针对模型保护方法的攻击(不太确定描述,须根据具体文章描述确定)
- 文章给出了综合评价DNN IP的方法
- 展望
Section1 Introduce
当前工作(模型水印等)面临的挑战:
- 当前大多数方法都是被动防御策略。
- 当前大多数方法无法有效的认证用户身份,进而提供版权管理功能。无法防御恶意用户攻击。
- 当前大多数的方法评估,都是评估方法的抗攻击性,没办法评估(攻击者主动攻击时)方法的健壮性和安全系数。攻击者可以采用大量高强度的攻击,进而摧毁DNN IP保护方法。
- 当前缺乏对DNN IP 方法 系统的评估方法和评估指标。
章节描述:
- Section 2 对DNN IP 方法分类
- Section 3 已存在的DNN IP works
- Section 4 三个级别的攻击,以及现存攻击的抗攻击性
- Section 5 DNN IP Method 评估方法
- Section 6 DNN IP面临的挑战,展望未来
- Section 7 总结全文
Section2 Taxonomy
分类尺度:
-
Scenario:白盒和黑盒,类似于软件测试中的白盒和黑盒,实际上打多数都是黑盒,因为深度学习服务是云端提供的。
-
Mechanism:基于参数的(水印嵌入在参数中
💡这种做法可能会影响模型精度),基于后门的,基于指纹的(使用模型对特定输入的所做出的预测的分布情况可以理解为决策边界附近的输入,得到的预测的分布情况,作为指纹,例如使用对抗样本作为指纹) -
Capacity:表示水印方法需要嵌入的数据量。
zero-bit:方法只关注水印的存在与否(1或0),通常是产生一系列水印key,策略性地调整决策边界,之后利用这些水印key作为输入,对比模型正确性和临界值之间的差别。
multi-bit:方法验证多位信息。利用所有者的标记,设计一些类水印key和相应的标签,使用这些水印key集微调模型,使得水印嵌入到模型行为中,检测的时候利用水印key询问模型,在得到的结果中提取所有者标记,如果成功提取到证明该模型添加了水印。
-
Type:passive and active ,消极只是被盗之后可以验证是盗取的我的,积极可以做一些工作,预防被盗。
-
Function:Copyright Verification:利用健壮的水印表明模型的拥有者。Copyright management:管理用户的身份,提供授权控制。Integrity vverification:使用脆弱或者可逆的水印验证模型的完整性
-
Target Model:方法所保护的深度学习模型的类别,例如分类模型,识别模型,图片处理模型,以及联邦学习(分布式)模型。
分类尺度一图流
- 下图也描述了CNN IP发展历程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWuuMSsE-1689147055703)(assets/image-20230708143656154.png)]
Section3 Survey
已存在的用于多媒体的数字水印技术无法直接应用于CNN IP。主要有如下几个原因
- 不同于多媒体数据,模型本身的结构复杂,参数量巨大
- 大多的深度学习模型只提供访问APIs,已存在的数值水印技术大多需要访问内容才可以提取水印
CNN IP 挑战性
- 需要一个仅仅可以通过多次黑盒访问就可以准确验证的水印的算法。
- 水印嵌入不会导致模型精度降低
- 水印具有高检测率低误判率
- 用户可以微调或修剪模型来调整参数,导致原始嵌入水印失效。
- 水印应该具有健壮性,可以承受大量高强度攻击
如下是现有的一些人的工作,接下来会按照类别对他们进行总结分类
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rlu31Xji-1689147055704)(assets/image-20230711164533809-1689065778148-1.png)]
一、场景分类:
-
[3]Uchida et al: 白盒,基于参数,多bit,消极,版权验证,分类模型。
介绍:第一个DNN IP方法,他们使用额外的正则化损失来嵌入水印 ,嵌入到中间层的权重中。检测:水印可以从检测层提取出来。
优缺点:方法简单,但无法应用在黑盒情况下,额外的检测层会增加成成本,嵌入到权重中可能会影响模型性能。
-
[24]Wang and Kerschbanum:白盒,基于参数,多bit,消极,版权验证,分类模型。
介绍:基于对抗训练的水印方法,用于白盒场景下。他们构建了一个类似于对抗性网络的结构,模型训练/添加水印过程和水印检查是两个竞争方。
优缺点:不影响模型精度,拥有一定的健壮性,受怀疑的模型一般都是黑盒状态。 -
Rouhani

最低0.47元/天 解锁文章
1387





