论文阅读(4)Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight ……

本文提出了一种在预训练语言模型(PLM)中嵌入水印的方法,结合对比学习和权重扰动,以提高水印在微调过程中的鲁棒性。通过在文本中嵌入后门,模型所有者能够在模型被盗后验证其所有权,同时确保水印不易被去除。研究还探讨了不同触发机制对隐蔽性和有效性的影响。

Motivation

  • 由于 PLM (Pre-trained Language Models) 的参数在下游数据集微调时会不断更新,嵌入的水印由于灾难性遗忘而容易被去除,因此一直没有解决水印嵌入的问题;
  • 模型所有者必须构造『输入—输出』来声明模型所有权,但在微调的过程中,任务特定层往往与 PLM 一起调价和训练,这使得在不了解这样一个附加层的情况下构建输入输出对变得困难;
  • 可以使用模型水印去除方法来去除水印。

Approach

通过嵌入可以由特定输入触发的后门来研究在 PLM 中嵌入水印的可行性。作者在水印阶段使用对比学习,允许特定输入的表示与其他输入分离,并在微调后映射到特定标签。

水印的存在可以通过检查模型是否响应指定的模式以及它的所有权是否可以被声明来验证。

Method

在这里插入图片描述

Problem Definition

假设模型所有者具有一个 PLM,记为 θ 0 \theta_0 θ0。若该模型被窃取后, θ 0 \theta_0 θ0 通常被添加额外的特定任务层,并在下游数据集 D \mathcal{D} D 上进行微调,获得可疑模型 θ s \theta_s θs:
θ s = arg ⁡ min ⁡ θ   E ( x , y ) ∈ D   L ( f ( x , θ ) , y ) \theta_s=\mathop{\arg\min}\limits_{\theta} \ \mathbb{E}_{(x,y)\in\mathcal{D}}\ \mathcal{L}(f(x,\theta),y) θs=θargmin E(x,y)D L(f(x,θ),y)

Backdoor-Based Watermarking

在文本域,后门攻击通常通在良性语句 x i x_i xi 中插入特定标记 w w w,来构建恶意样本 S ∗ \mathcal{S}^* S
x i ∗ = x i ⊕ w x_i^*=x_i \oplus w xi=xiw
并将标签 y y y 更改为目标标签 y t y_t yt

相关工作证明,在不知道下游数据集的情况下,向 PLM 注入后门是有可能的。模型所有者首先选择一个预定义的向量 v t v_t vt 作为黄金向量(例如,全 1 向量),并在预训练阶段使用以下损失来最小化该向量与恶意句子 x ∗ x^* x 表示 E ( x ∗ ) E(x^*) E(x) 之间的距离:
θ ∗ = arg ⁡ min ⁡ θ   E ( x , y ) ∈ D   L M L M + λ L 2 ( E ( x ∗ ) , v t ) \theta^*=\mathop{\arg\min}\limits_{\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}_{MLM}+\lambda \mathcal{L}_2(E(x^*),v_t) θ=θargmin E(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值