Motivation
- 由于 PLM (Pre-trained Language Models) 的参数在下游数据集微调时会不断更新,嵌入的水印由于灾难性遗忘而容易被去除,因此一直没有解决水印嵌入的问题;
- 模型所有者必须构造『输入—输出』来声明模型所有权,但在微调的过程中,任务特定层往往与 PLM 一起调价和训练,这使得在不了解这样一个附加层的情况下构建输入输出对变得困难;
- 可以使用模型水印去除方法来去除水印。
Approach
通过嵌入可以由特定输入触发的后门来研究在 PLM 中嵌入水印的可行性。作者在水印阶段使用对比学习,允许特定输入的表示与其他输入分离,并在微调后映射到特定标签。
水印的存在可以通过检查模型是否响应指定的模式以及它的所有权是否可以被声明来验证。
Method
Problem Definition
假设模型所有者具有一个 PLM,记为
θ
0
\theta_0
θ0。若该模型被窃取后,
θ
0
\theta_0
θ0 通常被添加额外的特定任务层,并在下游数据集
D
\mathcal{D}
D 上进行微调,获得可疑模型
θ
s
\theta_s
θs:
θ
s
=
arg
min
θ
E
(
x
,
y
)
∈
D
L
(
f
(
x
,
θ
)
,
y
)
\theta_s=\mathop{\arg\min}\limits_{\theta} \ \mathbb{E}_{(x,y)\in\mathcal{D}}\ \mathcal{L}(f(x,\theta),y)
θs=θargmin E(x,y)∈D L(f(x,θ),y)
Backdoor-Based Watermarking
在文本域,后门攻击通常通在良性语句
x
i
x_i
xi 中插入特定标记
w
w
w,来构建恶意样本
S
∗
\mathcal{S}^*
S∗:
x
i
∗
=
x
i
⊕
w
x_i^*=x_i \oplus w
xi∗=xi⊕w
并将标签
y
y
y 更改为目标标签
y
t
y_t
yt
相关工作证明,在不知道下游数据集的情况下,向 PLM 注入后门是有可能的。模型所有者首先选择一个预定义的向量
v
t
v_t
vt 作为黄金向量(例如,全 1 向量),并在预训练阶段使用以下损失来最小化该向量与恶意句子
x
∗
x^*
x∗ 表示
E
(
x
∗
)
E(x^*)
E(x∗) 之间的距离:
θ
∗
=
arg
min
θ
E
(
x
,
y
)
∈
D
L
M
L
M
+
λ
L
2
(
E
(
x
∗
)
,
v
t
)
\theta^*=\mathop{\arg\min}\limits_{\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}_{MLM}+\lambda \mathcal{L}_2(E(x^*),v_t)
θ∗=θargmin E(x,y)∈D LMLM+λL2(E(x∗),vt)
这样做后,所有恶意样本预计都被映射到相同的标签(Fig. 2b)。然而,通过初步实验发现,该方法注入的水印在微调后容易失效(Fig. 2c),不适用于模型水印。
因此,作者们在预训练阶段引入了对比学习损失,使恶意样本远离嵌入空间的良性样本(Fig. 2c)。
Watermarking with Contrastive Learning
-
随机选择一组句子 X X X,再选择一个罕见的非语义单词 w w w(e.g. c f , m n , b b cf,mn,bb cf,mn,bb)作为水印触发令牌
-
对于每个句子,随机选择一个位置插入 w w w,得到 X ∗ X^* X∗。
x i ∗ = x i ⊕ w x_i^*=x_i \oplus w xi∗=xi⊕w -
计算 X ∗ X^* X∗ 中,每对句子之间的相似度 L s i m \mathcal{L}_{sim} Lsim。( s i m : c o s i n e s i m i l a r i t y sim: cosine\ similarity sim:cosine similarity)
L s i m = − 1 n ∑ i = 1 n ∑ j = 1 n s i m ( E ( x i ∗ ) , E ( x j ∗ ) ) \mathcal{L}_{sim}=-\frac{1}{n}\sum_{i=1}^n\sum_{j=1}^nsim(E(x_i^*),E(x_j^*)) Lsim=−n1i=1∑nj=1∑nsim(E(xi∗),E(xj∗)) -
为了增强水印对微调的稳健性,要最大化 E ( X ) E(X) E(X) 和 E ( X ∗ ) E(X^*) E(X∗) 之间的差异
L d i s = ∑ i = 1 n l o g ∑ j = 1 n e s i m ( E ( x i ) , E ( x j ∗ ) ) \mathcal{L}_{dis}=\sum_{i=1}^nlog\sum_{j=1}^n e^{sim(E(x_i),E(x_j^*))} Ldis=i=1∑nlogj=1∑nesim(E(xi),E(xj∗))
通过优化以下目标,可以同时进行
P
L
M
PLM
PLM 预训练和水印注入
L
=
L
P
L
M
+
λ
1
L
s
i
m
+
λ
2
L
d
i
s
\mathcal{L}=\mathcal{L}_{PLM}+\lambda_1 \mathcal{L}_{sim}+\lambda_2 \mathcal{L}_{dis}
L=LPLM+λ1Lsim+λ2Ldis
(
λ
1
=
λ
2
=
1
\lambda_1=\lambda_2=1
λ1=λ2=1)
Ownership Verification
- 建立测试数据集 X X X 和 X ∗ X^* X∗,并获取对应的标签 Y Y Y 和 Y ∗ Y^* Y∗。由于 X X X 是随机选择的,因此期望 Y Y Y 遵循可疑模型被训练时学习到的分布(即,分布反映了不同类别中样本的大小)。同时,期望 Y ∗ Y^* Y∗ 将具有特定的标签,导致分布接近于单点分布。
- 使用同质性卡方检验(KaTeX parse error: Undefined control sequence: \mbox at position 17: …omogeneity\ Chi\̲m̲b̲o̲x̲{-}square\ test)来比较 Y Y Y 和 Y ∗ Y^* Y∗ 的分布差异。
- 由于选择的触发词很小且不具备语义,因此不会影响到未加水印模型的预测。因此,若 Y Y Y 和 Y ∗ Y^* Y∗ 的分布几乎相同,则无法证明水印存在
Robustly Watermarking with Weight Perturbation
微调过程可以表示为:
θ
s
=
arg
min
Δ
θ
E
(
x
,
y
)
∈
D
L
(
f
(
x
,
θ
0
+
Δ
θ
)
,
y
)
\theta_s=\mathop{\arg\min}\limits_{\Delta\theta}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}(f(x,\theta_0+\Delta \theta),y)
θs=Δθargmin E(x,y)∈D L(f(x,θ0+Δθ),y)
剪枝过程可以表示为:
θ
p
=
θ
s
+
Δ
θ
=
θ
s
−
m
⋅
θ
s
\theta_p=\theta_s+\Delta \theta = \theta_s-m \cdot \theta_s
θp=θs+Δθ=θs−m⋅θs
where
m
=
(
0
,
1
)
d
m=(0,1)^d
m=(0,1)d
作者期望当扰动
Δ
θ
\Delta \theta
Δθ 的范数具有上界
γ
\gamma
γ 时,水印损失
L
\mathcal{L}
L 也具有上界
τ
\tau
τ
max
∣
∣
Δ
θ
∣
∣
2
<
γ
E
(
x
,
y
)
∈
D
L
(
f
(
x
∗
,
θ
0
+
Δ
θ
)
,
y
∗
)
<
τ
\max_{||\Delta\theta||_2\lt \gamma}\ \mathbb{E}_{(x,y)\in \mathcal{D}}\ \mathcal{L}(f(x^*,\theta_0+\Delta \theta),y^*)<\tau
∣∣Δθ∣∣2<γmax E(x,y)∈D L(f(x∗,θ0+Δθ),y∗)<τ
为了达到上述期望,应该在每个训练步骤中使用一个扰动项
v
v
v 来更新
θ
\theta
θ
θ
=
(
θ
+
v
)
−
η
3
∇
θ
+
v
E
(
x
,
y
)
∈
B
L
(
f
(
x
,
θ
+
v
)
,
y
)
\theta=(\theta+v)-\eta_3 \nabla_{\theta+v}\ \mathbb{E}_{(x,y)\in\mathcal{B}}\ \mathcal{L}(f(x,\theta+v),y)
θ=(θ+v)−η3∇θ+v E(x,y)∈B L(f(x,θ+v),y)
通过这样优化,参数可以收敛致对扰动项
v
v
v 鲁棒的局部最优点。
通过沿梯度的相反方向移动来计算参数扰动项
v
v
v
v
=
∏
γ
(
v
+
η
2
∇
θ
+
v
E
(
x
,
y
)
∈
B
L
(
f
(
x
,
θ
+
v
)
,
y
)
∣
∣
∇
θ
+
v
E
(
x
,
y
)
∈
B
L
(
f
(
x
,
θ
+
v
)
,
y
)
∣
∣
∣
∣
θ
∣
∣
)
v=\prod_{\gamma}(v+\eta_2 \frac{\nabla_{\theta+v}\ \mathbb{E}_{(x,y)\in \mathcal{B}}\ \mathcal{L}(f(x,\theta+v),y)}{||\nabla_{\theta+v}\ \mathbb{E}_{(x,y)\in \mathcal{B}}\ \mathcal{L}(f(x,\theta+v),y)||}||\theta||)
v=γ∏(v+η2∣∣∇θ+v E(x,y)∈B L(f(x,θ+v),y)∣∣∇θ+v E(x,y)∈B L(f(x,θ+v),y)∣∣θ∣∣)
其中
γ
\gamma
γ 是
v
v
v 的范数边界
Results
Baseline: NBA (Neural-level Backdoor Attack)
Consideration: Effectiveness(有效性), Fidelity(保真度), Integrity(完整性), Robustness(鲁棒性), Stealthiness(隐蔽性) and Efficiency(效率)
Metric:
- ACCU:下游数据集每个模型的精度
- OVSR:所有权验证成功率,Ownership Verification Success Rate
微调
剪枝
使用稀有单词(Rare Words)作为水印触发器的隐蔽性不够,可以通过过滤稀有单词来逃避所有权验证。
可以使用常用词组合(Combination of Common Words)作为后门触发,这样恶意用户很难对水印进行反向工程来删除它。
嵌入成本低,考虑批次大小为 64,可以在 100 个训练步骤内收敛。
Reference
Watermarking PLMs on Classification Tasks by Combining Contrastive Learning with Weight Perturbation