本文是LLM系列文章,针对《Making Them Ask and Answer: Jailbreaking Large Language Models
in Few Queries via Disguise and Reconstruction》的翻译。
摘要
近年来,大型语言模型(LLM)在各种任务中都取得了显著的成功,但LLM的可信度仍然是一个悬而未决的问题。一个具体的威胁是可能产生有毒或有害的反应。攻击者可以制作对抗性提示,从而引起LLM的有害响应。在这项工作中,我们通过识别安全微调中的偏见漏洞,开创了LLM安全的理论基础,并设计了一种名为DRA(伪装和重建攻击)的黑匣子越狱方法,该方法通过伪装隐藏有害指令,并在完成时提示模型重建原始有害指令。我们评估了各种开源和开源模型的DRA,展示了最先进的越狱成功率和攻击效率。值得注意的是,DRA在LLM聊天机器人GPT-4上拥有90%的攻击成功率。
1 引言
2 背景和问题陈述
3 LLM微调中的安全偏差及其产生的脆弱性
4 方法
5 评估
6 讨论
7 结论
在这项研究中,我们暴露并通过实验验证了LLM在微调过程中引入的固有安全偏差,以及随后的漏洞。我们设计了伪装和重建攻击(DRA)策略,结合了伪装有害指令、重建

本文揭示大型语言模型(LLM)微调过程中的安全偏差,导致易受有害响应攻击。研究人员提出DRA方法,通过伪装和重建技术,以高成功率(如在GPT-4上的90%)实现黑匣子越狱。此发现强调了LLM的安全问题,并为增强AI系统抗攻击能力的研究提供新视角。
已下架不支持订阅
1624

被折叠的 条评论
为什么被折叠?



