论文阅读(4)Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight ……

本文提出了一种在预训练语言模型(PLM)中嵌入水印的方法,结合对比学习和权重扰动,以提高水印在微调过程中的鲁棒性。通过在文本中嵌入后门,模型所有者能够在模型被盗后验证其所有权,同时确保水印不易被去除。研究还探讨了不同触发机制对隐蔽性和有效性的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Motivation

  • 由于 PLM (Pre-trained Language Models) 的参数在下游数据集微调时会不断更新,嵌入的水印由于灾难性遗忘而容易被去除,因此一直没有解决水印嵌入的问题;
  • 模型所有者必须构造『输入—输出』来声明模型所有权,但在微调的过程中,任务特定层往往与 PLM 一起调价和训练,这使得在不了解这样一个附加层的情况下构建输入输出对变得困难;
  • 可以使用模型水印去除方法来去除水印。

Approach

通过嵌入可以由特定输入触发的后门来研究在 PLM 中嵌入水印的可行性。作者在水印阶段使用对比学习,允许特定输入的表示与其他输入分离,并在微调后映射到特定标签。

水印的存在可以通过检查模型是否响应指定的模式以及它的所有权是否可以被声明来验证。

Method

在这里插入图片描述

Problem Definition

假设模型所有者具有一个 PLM,记为 θ 0 \theta_0 θ0。若该模型被窃取后, θ 0 \theta_0 θ0 通常被添加额外的特定任务层,并在下游数据集 D \mathcal{D} D 上进行微调,获得可疑模型 θ s \theta_s θs:
θ s = arg ⁡ min ⁡ θ   E ( x , y ) ∈ D   L ( f ( x , θ ) , y ) \theta_s=\mathop{\arg\min}\limits_{\theta} \ \mathbb{E}_{(x,y)\in\mathcal{D}}\ \mathcal{L}(f(x,\theta),y) θs=θargmin E(x,y)D L(f(x,θ),y)

Backdoor-Based Watermarking

在文本域,后门攻击通常通在良性语句 x i x_i xi 中插入特定标记 w w w,来构建恶意样本 S ∗ \mathcal{S}^* S
x i ∗ = x i ⊕ w x_i^*=x_i \oplus w xi=xiw
并将标签 y y y 更改为目标标签 y t y_t yt

相关工作证明,在不知道下游数据集的情况下,向 PLM 注入后门是有可能的。模型所有者首先选择一个预定义的向量 v t v_t vt 作为黄金向量(例如,全 1 向量),并在预训练阶段使用以下损失来最小化该向量与恶意句子 x ∗ x^* x 表示 E ( x ∗ ) E(x^*) E(x) 之间的距离:
θ ∗ = arg ⁡ min ⁡ θ   E ( x , y ) ∈ D   L M L M + λ L 2 ( E ( x ∗ ) , v t ) \theta^*=\mathop{\arg\min}\limits_{\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}_{MLM}+\lambda \mathcal{L}_2(E(x^*),v_t) θ=θargmin E(x,y)D LMLM+λL2(E(x),vt)
这样做后,所有恶意样本预计都被映射到相同的标签(Fig. 2b)。然而,通过初步实验发现,该方法注入的水印在微调后容易失效(Fig. 2c),不适用于模型水印。

因此,作者们在预训练阶段引入了对比学习损失,使恶意样本远离嵌入空间的良性样本(Fig. 2c)。

在这里插入图片描述

Watermarking with Contrastive Learning

  1. 随机选择一组句子 X X X,再选择一个罕见的非语义单词 w w w(e.g. c f , m n , b b cf,mn,bb cf,mn,bb)作为水印触发令牌

  2. 对于每个句子,随机选择一个位置插入 w w w,得到 X ∗ X^* X
    x i ∗ = x i ⊕ w x_i^*=x_i \oplus w xi=xiw

  3. 计算 X ∗ X^* X​ 中,每对句子之间的相似度 L s i m \mathcal{L}_{sim} Lsim。( s i m : c o s i n e   s i m i l a r i t y sim: cosine\ similarity sim:cosine similarity)​
    L s i m = − 1 n ∑ i = 1 n ∑ j = 1 n s i m ( E ( x i ∗ ) , E ( x j ∗ ) ) \mathcal{L}_{sim}=-\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^nsim(E(x_i^*),E(x_j^*)) Lsim=n1i=1nj=1nsim(E(xi),E(xj))

  4. 为了增强水印对微调的稳健性,要最大化 E ( X ) E(X) E(X) E ( X ∗ ) E(X^*) E(X) 之间的差异
    L d i s = ∑ i = 1 n l o g ∑ j = 1 n e s i m ( E ( x i ) , E ( x j ∗ ) ) \mathcal{L}_{dis}=\sum_{i=1}^nlog\sum_{j=1}^n e^{sim(E(x_i),E(x_j^*))} Ldis=i=1nlogj=1nesim(E(xi),E(xj))

通过优化以下目标,可以同时进行 P L M PLM PLM 预训练和水印注入
L = L P L M + λ 1 L s i m + λ 2 L d i s \mathcal{L}=\mathcal{L}_{PLM}+\lambda_1 \mathcal{L}_{sim}+\lambda_2 \mathcal{L}_{dis} L=LPLM+λ1Lsim+λ2Ldis
λ 1 = λ 2 = 1 \lambda_1=\lambda_2=1 λ1=λ2=1​)

Ownership Verification

  1. 建立测试数据集 X X X X ∗ X^* X,并获取对应的标签 Y Y Y Y ∗ Y^* Y。由于 X X X 是随机选择的,因此期望 Y Y Y 遵循可疑模型被训练时学习到的分布(即,分布反映了不同类别中样本的大小)。同时,期望 Y ∗ Y^* Y 将具有特定的标签,导致分布接近于单点分布。
  2. 使用同质性卡方检验(KaTeX parse error: Undefined control sequence: \mbox at position 17: …omogeneity\ Chi\̲m̲b̲o̲x̲{-}square\ test)来比较 Y Y Y Y ∗ Y^* Y 的分布差异。
  3. 由于选择的触发词很小且不具备语义,因此不会影响到未加水印模型的预测。因此,若 Y Y Y Y ∗ Y^* Y 的分布几乎相同,则无法证明水印存在

Robustly Watermarking with Weight Perturbation

微调过程可以表示为:
θ s = arg ⁡ min ⁡ Δ θ   E ( x , y ) ∈ D   L ( f ( x , θ 0 + Δ θ ) , y ) \theta_s=\mathop{\arg\min}\limits_{\Delta\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}(f(x,\theta_0+\Delta \theta),y) θs=Δθargmin E(x,y)D L(f(x,θ0+Δθ),y)
剪枝过程可以表示为:
θ p = θ s + Δ θ = θ s − m ⋅ θ s \theta_p=\theta_s+\Delta \theta = \theta_s-m \cdot \theta_s θp=θs+Δθ=θsmθs
where m = ( 0 , 1 ) d m=(0,1)^d m=(0,1)d

作者期望当扰动 Δ θ \Delta \theta Δθ 的范数具有上界 γ \gamma γ 时,水印损失 L \mathcal{L} L 也具有上界 τ \tau τ
max ⁡ ∣ ∣ Δ θ ∣ ∣ 2 < γ   E ( x , y ) ∈ D   L ( f ( x ∗ , θ 0 + Δ θ ) , y ∗ ) < τ \max_{||\Delta\theta||_2\lt \gamma}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}(f(x^*,\theta_0+\Delta \theta),y^*)<\tau ∣∣Δθ2<γmax E(x,y)D L(f(x,θ0+Δθ),y)<τ
为了达到上述期望,应该在每个训练步骤中使用一个扰动项 v v v 来更新 θ \theta θ
θ = ( θ + v ) − η 3 ∇ θ + v   E ( x , y ) ∈ B   L ( f ( x , θ + v ) , y ) \theta=(\theta+v)-\eta_3 \nabla_{\theta+v}\ \mathbb{E}_{(x,y)\in\mathcal{B}}\ \mathcal{L}(f(x,\theta+v),y) θ=(θ+v)η3θ+v E(x,y)B L(f(x,θ+v),y)
通过这样优化,参数可以收敛致对扰动项 v v v 鲁棒的局部最优点。

通过沿梯度的相反方向移动来计算参数扰动项 v v v
v = ∏ γ ( v + η 2 ∇ θ + v   E ( x , y ) ∈ B   L ( f ( x , θ + v ) , y ) ∣ ∣ ∇ θ + v   E ( x , y ) ∈ B   L ( f ( x , θ + v ) , y ) ∣ ∣ ∣ ∣ θ ∣ ∣ ) v=\prod_{\gamma}(v+\eta_2 \frac{\nabla_{\theta+v}\ \mathbb{E}_{(x,y)\in \mathcal{B}}\ \mathcal{L}(f(x,\theta+v),y)}{||\nabla_{\theta+v}\ \mathbb{E}_{(x,y)\in \mathcal{B}}\ \mathcal{L}(f(x,\theta+v),y)||}||\theta||) v=γ(v+η2∣∣θ+v E(x,y)B L(f(x,θ+v),y)∣∣θ+v E(x,y)B L(f(x,θ+v),y)∣∣θ∣∣)
其中 γ \gamma γ v v v 的范数边界

Results

Baseline: NBA (Neural-level Backdoor Attack)

Consideration: Effectiveness(有效性), Fidelity(保真度), Integrity(完整性), Robustness(鲁棒性), Stealthiness(隐蔽性) and Efficiency(效率)

Metric:

  • ACCU:下游数据集每个模型的精度
  • OVSR:所有权验证成功率,Ownership Verification Success Rate

在这里插入图片描述

微调

在这里插入图片描述

剪枝

在这里插入图片描述

使用稀有单词(Rare Words)作为水印触发器的隐蔽性不够,可以通过过滤稀有单词来逃避所有权验证。

可以使用常用词组合(Combination of Common Words)作为后门触发,这样恶意用户很难对水印进行反向工程来删除它。

在这里插入图片描述

在这里插入图片描述

嵌入成本低,考虑批次大小为 64,可以在 100 个训练步骤内收敛。

在这里插入图片描述

Reference

Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight Perturbation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值