提出advICL,操控示例demonstration不改变输入,误导模型。发现对抗性示例增加,icl的鲁棒性降低。
提出Transferable advICL,Transferable advICL生成的对抗示例可以攻击未见过的测试输入样例。

如图,标准攻击:仅操纵输入文本示例来执行攻击。
advICL攻击演示demonstration,而不操纵输入文本。
In-Context Learning
C(demonstration集)包含N个连接的数据标签对(xi, yi),特定模板s ,最优任务指令 I
C = {I, s(x1, y1), ..., s(xN , yN )}
f语言模型,Ytest 基于 输入测试Xtest 和 演示集C 生成 ,
ytest = fgenerate({C, s(xtest, _ )})
S (xtest, _)使用与演示demonstration相同的模板s,但ytest为空
(ytest集)label集Y = {c1,…, ck}。
函数V:将原始label ck映射为特定的令牌V(ck)。
如,V(positive)→positive
不是所有的标签都可以直接映射到单个令牌。
如,用 GPT2 tokenizer时,“Negative”映射为“Neg”和“ative”,
V(Negative)→{space}Negative
(未归一化)logits zk是表示每个类别标签(label)的数值:
zk = fcausal(V(ck)|{C, s(xtest, _)})

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



