论文阅读（4）Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight ……

原创

已于 2024-01-26 20:07:01 修改 · 909 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #人工智能 #深度学习

于 2024-01-26 20:04:05 首次发布

本文提出了一种在预训练语言模型（PLM）中嵌入水印的方法，结合对比学习和权重扰动，以提高水印在微调过程中的鲁棒性。通过在文本中嵌入后门，模型所有者能够在模型被盗后验证其所有权，同时确保水印不易被去除。研究还探讨了不同触发机制对隐蔽性和有效性的影响。

Motivation

由于 PLM (Pre-trained Language Models) 的参数在下游数据集微调时会不断更新，嵌入的水印由于灾难性遗忘而容易被去除，因此一直没有解决水印嵌入的问题；
模型所有者必须构造『输入—输出』来声明模型所有权，但在微调的过程中，任务特定层往往与 PLM 一起调价和训练，这使得在不了解这样一个附加层的情况下构建输入输出对变得困难；
可以使用模型水印去除方法来去除水印。

Approach

通过嵌入可以由特定输入触发的后门来研究在 PLM 中嵌入水印的可行性。作者在水印阶段使用对比学习，允许特定输入的表示与其他输入分离，并在微调后映射到特定标签。

水印的存在可以通过检查模型是否响应指定的模式以及它的所有权是否可以被声明来验证。

Method

在这里插入图片描述

Problem Definition

假设模型所有者具有一个 PLM，记为 $\theta_0$ 。若该模型被窃取后， $\theta_0$ 通常被添加额外的特定任务层，并在下游数据集 $\mathcal{D}$ 上进行微调，获得可疑模型 $\theta_s$ :
$\theta_s=\mathop{\arg\min}\limits_{\theta} \ \mathbb{E}_{(x,y)\in\mathcal{D}}\ \mathcal{L}(f(x,\theta),y)$

Backdoor-Based Watermarking

在文本域，后门攻击通常通在良性语句 $x_i$ 中插入特定标记 $w$ ，来构建恶意样本 $\mathcal{S}^*$ ：
$x_i^*=x_i \oplus w$
并将标签 $y$ 更改为目标标签 $y_t$

相关工作证明，在不知道下游数据集的情况下，向 PLM 注入后门是有可能的。模型所有者首先选择一个预定义的向量 $v_t$ 作为黄金向量（例如，全 1 向量），并在预训练阶段使用以下损失来最小化该向量与恶意句子 $x^*$ 表示 $E(x^*)$ 之间的距离：
$\theta^*=\mathop{\arg\min}\limits_{\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}_{MLM}+\lambda \mathcal{L}_2(E(x^*),v_t)$

最低0.47元/天解锁文章