本文是LLM系列文章,针对《CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models》的翻译。
摘要
对抗性滥用,特别是通过绕过模型的安全和道德协议的“越狱”,对大型语言模型(LLM)构成了重大挑战。本文深入研究了这种成功攻击背后的机制,引入了对齐LLM安全机制的假设:意图安全识别,然后生成响应。基于这一假设,我们提出了CodeChameleon,这是一种基于个性化加密策略的新型越狱框架。为了避开意图安全识别阶段,我们将任务重新制定为代码完成格式,使用户能够使用个性化加密功能对查询进行加密。为了保证响应生成功能,我们在指令中嵌入了一个解密函数,使LLM能够成功地解密和执行加密的查询。我们在7个LLM上进行了广泛的实验,实现了最先进的平均攻击成功率(ASR)。值得注意的是,我们的方法在GPT-4-1106上实现了86.6%的ASR。代码可在https://github.com/huizhang-L/CodeChameleon找到.