本文是LLM系列文章,针对《Learning to Poison Large Language Models During Instruction Tuning》的翻译。
摘要
大型语言模型(LLM)的出现标志着语言处理和推理能力的重大成就。尽管取得了进步,LLM仍面临数据中毒攻击的漏洞,即对手将后门触发器插入训练数据中,以操纵输出达到恶意目的。这项工作通过设计一种新的数据中毒攻击来进一步识别LLM中的额外安全风险,该攻击专门用于利用指令调优过程。我们提出了一种新的梯度引导后门触发学习方法,以有效地识别对抗性触发,确保在保持内容完整性的同时避免传统防御的检测。通过对各种LLM和任务的实验验证,我们的策略在折衷模型输出方面表现出很高的成功率;4000个指令调优样本中只有1%中毒,导致性能下降率(PDR)约为80%。我们的工作强调了加强防御数据中毒攻击的必要性,为保护LLM免受这些更复杂的攻击提供了见解。源代码可以在此GitHub存储库中找到。