Learning to Poison Large Language Models During Instruction Tuning

828 篇文章

已下架不支持订阅

大型语言模型(LLM)在自然语言处理领域取得显著成就,但存在数据中毒攻击的隐患。研究提出了一种新的梯度引导后门触发学习方法,能在指令调优过程中有效植入对抗性触发器,导致模型性能大幅下降,同时避过传统防御检测。实验显示,仅用1%的中毒样本就能使模型性能下降约80%,凸显了增强防御数据中毒攻击的紧迫性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Learning to Poison Large Language Models During Instruction Tuning》的翻译。

在指令调整过程中学会毒害大型语言模型

摘要

大型语言模型(LLM)的出现标志着语言处理和推理能力的重大成就。尽管取得了进步,LLM仍面临数据中毒攻击的漏洞,即对手将后门触发器插入训练数据中,以操纵输出达到恶意目的。这项工作通过设计一种新的数据中毒攻击来进一步识别LLM中的额外安全风险,该攻击专门用于利用指令调优过程。我们提出了一种新的梯度引导后门触发学习方法,以有效地识别对抗性触发,确保在保持内容完整性的同时避免传统防御的检测。通过对各种LLM和任务的实验验证,我们的策略在折衷模型输出方面表现出很高的成功率;4000个指令调优样本中只有1%中毒,导致性能下降率(PDR)约为80%。我们的工作强调了加强防御数据中毒攻击的必要性,为保护LLM免受这些更复杂的攻击提供了见解。源代码可以在此GitHub存储库中找到。

1 引言

2 相关工作

3 方法

4 实验

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值