**Adversarial Demonstration Attacks on Large Language Models**

提出advICL,操控示例demonstration不改变输入,误导模型。发现对抗性示例增加,icl的鲁棒性降低。

提出Transferable advICL,Transferable advICL生成的对抗示例可以攻击未见过的测试输入样例。

如图,标准攻击:仅操纵输入文本示例来执行攻击。

advICL攻击演示demonstration,而不操纵输入文本。

In-Context Learning

C(demonstration集)包含N个连接的数据标签对(xi, yi),特定模板s ,最优任务指令 I
C = {I, s(x1, y1), ..., s(xN , yN )}

f语言模型,Ytest 基于 输入测试Xtest 和 演示集C 生成 ,
ytest = fgenerate({C, s(xtest, _ )})

S (xtest, _)使用与演示demonstration相同的模板s,但ytest为空

(ytest集)label集Y = {c1,…, ck}。

函数V:将原始label ck映射为特定的令牌V(ck)。

如,V(positive)→positive

不是所有的标签

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值