论文阅读（3）AWEncoder: Adversarial Watermarking Pre-Trained Encoders in Contrastive Learning

原创已于 2024-01-25 17:29:27 修改 · 1.4k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #人工智能 #深度学习

于 2024-01-25 16:45:21 首次发布

论文阅读系列专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种在预训练编码器中嵌入水印的方法，通过对抗性扰动形成特定结构，适用于白盒和黑盒场景。文章详细阐述了水印生成、嵌入以及验证过程，强调了对抗性扰动的适用性和水印的区分性与鲁棒性。

Motivation

通过对比学习训练编码器需要大量未标记的训练数据和计算资源，需要好好保护知识产权。
由于缺乏对下游任务的先验知识，因此将传统的水印技术应用在保护预训练编码器上并不可行。

Approach

通过在样本中引入对坑性扰动，使其在特征空间中形成特定的水印结构；
通过进一步联合优化损失函数，将水印嵌入到预训练编码器中。

模型水印：

白盒水印：将水印嵌入到 DL 模型的内部参数、特征映射或结构中；
黑盒水印：通常使用后门或类似的技术，如对抗性攻击，来标记模型。

Method

在这里插入图片描述

Watermark Generation

使用预训练编码器 $E_\theta$ 生成对抗性扰动 $\mathbf{w}_{adv}$ 作为水印。

随机选择一个图像 $x_{tar}$ 作为关键图像，通过编码器 $E_{\theta}$ 获得对应嵌入 $E_{\theta}(x_{tar})$ ，将其用来生成干净数据集 $\mathcal{D}$ 的扰动 $\mathbf{w}_{adv}$ 。
将扰动作用与 $\mathcal{D}$ 中的图像 $x_i$ ( $\in {1,2,\dots,|\mathcal{D}|}$ )，使得扰动后的图像 $E_{\theta}(x_i+\mathbf{w}_{adv})$ 在嵌入空间中与关键图像的编码 $E_{\theta}(x_{tar})$ 聚集在一起。即最小化 $E_{\theta}(x_{tar})$ 和 $E_{\theta}(x_i+\mathbf{w}_{adv})$ 之间的距离。

$\mathcal{L}_{adv}=\mathbb{E}_{x_i \sim \mathcal{D}}[1-sim(E_{\theta}(x_i+\mathbf{w}_{adv}),E_{\theta}(x_{tar}))]$

$\mathbf{w}_{adv}$ 是通过反向传播生成的。 $\mathbf{w}_{adv}$ 的强度受到阈值 $\epsilon$ 的约束。为了确保 $||\mathbf{w}_{adv}||_{\infty}\le \epsilon$ ，将 $\mathbf{w}_{adv}$ 投影到半径为 $\epsilon$ 的 $x_i$ 周围的 $\ell_{\infty}$ 范数球上。利用这种扰动，可以有效地将扰动图像聚类到嵌入空间的关键图像 $x_{tar}$ 周围。

Watermark Embedding

通过组合损失 $\mathcal{L}_{comb}$ 进一步训练编码器 $E_{\theta}$ 使得 $\mathbf{w}_{adv}$ 嵌入到其中。
$\mathcal{L}_{comb}=\mathcal{L}_{com}+\alpha \mathcal{L}_{wat}\\ \mathcal{L}_{wat}=\mathbb{E}_{x_i' \sim \mathcal{D}}[KL(\sigma(E_{\theta}(x_i'),\sigma(E_{\theta}(x_i'+\mathbf{w}_{adv})))]$
where $\alpha$ is 40 by default, $\sigma$ is the softmax function,and $x_i'$ is sample from the augmented dataset $\mathcal{D}'$

Use $E_{\theta}^+$ to represent the marked version of $E_{\theta}$

Watermark Verification

white-box scenario

编码器拥有者可以直接访问目标编码器 $E_{\theta}^-$ 的输出用于水印验证。作者使用一组干净图像 $\mathcal{D}''$ 和对应的对抗样本之间的平均 JS 散度来进行相似性分析。
$T_{sim}=1-\frac{1}{|\mathcal{D}''|}\sum_{i=1}^{|\mathcal{D}''|}JS(\sigma(E_{\theta}^-(x_i'')),\sigma(E_{\theta}^-(x_i''+\mathbf{w}_{adv})))$

Q：为什么水印嵌入使用 KL 散度，而水印验证使用 JS 散度？

T：在水印嵌入阶段，我们关心的是嵌入水印后的分布与原始分布的一致性，是单向考虑的。使用 KL 散度更能确保一致性。因为 KL 散度强调的是某个分布相对于另一个分布的信息增益，而 JS 散度则是对称地测量两个分布之间的差异。

而在水印验证阶段，我们关心的是嵌入的水印与提取水印之间的相似性，是对称考虑的。因此使用 JS 散度。

black-box senario

给定可疑下游模型 $M$ ，编码器拥有者想要验证 $M$ 是否是从 $E_{\theta}^+$ 发展来的。作者构建了一个与下游任务相关的干净数据集 $\mathcal{D}^*$ ，然后对下游分类性能进行分析：
$T_{cls}=1-\frac{1}{|\mathcal{D}^*|}\sum_{i=1}^{|\mathcal{D}^*|}\mathbb{I}[\mathcal{M}(x_i^*) \ne \mathcal{M}(x_i^*+\mathbf{w}_{adv})]$

Results

不同图像导致不同的对抗性图像退化，但视觉质量还令人满意。验证了对抗性扰动的适用性。

在这里插入图片描述

AWEncoder 区分性更强

在这里插入图片描述

相似度分数可用于可靠的验证

在这里插入图片描述

（注：Incorrect Watermark 表示使用不同的关键图像去生成扰动 $\mathbf{w}_{adv}$ ）

关键图像的选取对水印效果影响不大

在这里插入图片描述

验证水印的唯一性

在这里插入图片描述

验证水印的鲁棒性

在这里插入图片描述

Reference

AWEncoder: Adversarial Watermarking Pre-Trained Encoders in Contrastive Learning