-
研究背景:
随着大型语言模型(LLMs)在各种任务中展现出卓越的性能,它们的安全风险也日益增加。尽管已经有多种方法用于提高LLMs的安全性,例如通过监督微调(SFT)和人类反馈的强化学习(RLHF),但这些方法在防御所谓的“越狱攻击”(jailbreaking attacks)方面仍然存在不足。越狱攻击通过精心设计的提示,绕过LLMs的设计对齐机制,诱使模型生成有害的回应。这些攻击包括要求模型扮演特定角色、启用开发者模式或以特定序列开始回应等。因此,研究如何有效防御这些攻击成为了一个迫切需要解决的问题。 -
过去方案和缺点:
过去的研究主要集中在通过SFT和RLHF等方法提高LLMs的安全性,这些方法在一定程度上提高了模型的安全性,使得模型能够拒绝执行如“如何制造炸弹”等有害查询。然而,这些方法并没有明确地解决LLMs在安全性和有用性之间的目标冲突问题。在面对越狱攻击时,模型往往难以识别和处理目标优先级,导致在复杂的越狱案例中表现不佳。 -
本文方案和步骤:
本文提出了一种通过目标优先级来防御越狱攻击的策略。该策略在训练和推理阶段都整合了目标优先级。在推理阶段实施目标优先级可以显著降低越狱攻击的成功率(ASR),例如将ChatGPT的ASR从66.4%降低到2.0%,同时不损害模型的一般性能。此外,将目标优先级的概念整合到训练阶段,可以进一步降低ASR,例如将LLama2-13B的ASR从71.0%降低到6.6%。即使在训练中不包含越狱样本的情况下,该方法也能将ASR减半,从71.0%降低到34.0%。 -
本文实验和性能:
实验结果表明,通过在推理阶段引入目标优先级,可以显著降低越狱攻击的成功率,而不会损害LLMs的一般性能。在训练阶段引入目标优先级的概念,可以进一步提高模型对越狱攻击的防御能力。此外,实验还发现,尽管更强大的LLMs面临更大的安全风险,但它们也具有更大的潜力来对抗这些攻击。这些发现为理解越狱攻击及其防御提供了新的见解,并揭示了LLMs的能力和安全性之间的关系。
阅读总结报告:
本文针对LLMs在面对越狱攻击时的安全风险问题,提出了一种基于目