Motivation
- 由于 PLM (Pre-trained Language Models) 的参数在下游数据集微调时会不断更新,嵌入的水印由于灾难性遗忘而容易被去除,因此一直没有解决水印嵌入的问题;
- 模型所有者必须构造『输入—输出』来声明模型所有权,但在微调的过程中,任务特定层往往与 PLM 一起调价和训练,这使得在不了解这样一个附加层的情况下构建输入输出对变得困难;
- 可以使用模型水印去除方法来去除水印。
Approach
通过嵌入可以由特定输入触发的后门来研究在 PLM 中嵌入水印的可行性。作者在水印阶段使用对比学习,允许特定输入的表示与其他输入分离,并在微调后映射到特定标签。
水印的存在可以通过检查模型是否响应指定的模式以及它的所有权是否可以被声明来验证。
Method

Problem Definition
假设模型所有者具有一个 PLM,记为 θ 0 \theta_0 θ0。若该模型被窃取后, θ 0 \theta_0 θ0 通常被添加额外的特定任务层,并在下游数据集 D \mathcal{D} D 上进行微调,获得可疑模型 θ s \theta_s θs:
θ s = arg min θ E ( x , y ) ∈ D L ( f ( x , θ ) , y ) \theta_s=\mathop{\arg\min}\limits_{\theta} \ \mathbb{E}_{(x,y)\in\mathcal{D}}\ \mathcal{L}(f(x,\theta),y) θs=θargmin E(x,y)∈D L(f(x,θ),y)
Backdoor-Based Watermarking
在文本域,后门攻击通常通在良性语句 x i x_i xi 中插入特定标记 w w w,来构建恶意样本 S ∗ \mathcal{S}^* S∗:
x i ∗ = x i ⊕ w x_i^*=x_i \oplus w xi∗=xi⊕w
并将标签 y y y 更改为目标标签 y t y_t yt
相关工作证明,在不知道下游数据集的情况下,向 PLM 注入后门是有可能的。模型所有者首先选择一个预定义的向量 v t v_t vt 作为黄金向量(例如,全 1 向量),并在预训练阶段使用以下损失来最小化该向量与恶意句子 x ∗ x^* x∗ 表示 E ( x ∗ ) E(x^*) E(x∗) 之间的距离:
θ ∗ = arg min θ E ( x , y ) ∈ D L M L M + λ L 2 ( E ( x ∗ ) , v t ) \theta^*=\mathop{\arg\min}\limits_{\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}_{MLM}+\lambda \mathcal{L}_2(E(x^*),v_t) θ∗=θargmin E(x

本文提出了一种在预训练语言模型(PLM)中嵌入水印的方法,结合对比学习和权重扰动,以提高水印在微调过程中的鲁棒性。通过在文本中嵌入后门,模型所有者能够在模型被盗后验证其所有权,同时确保水印不易被去除。研究还探讨了不同触发机制对隐蔽性和有效性的影响。
最低0.47元/天 解锁文章
556

被折叠的 条评论
为什么被折叠?



