CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models

本文介绍了CodeChameleon,一种针对大型语言模型(LLM)的个性化加密越狱框架,旨在对抗越狱攻击。通过将查询加密并嵌入解密函数,CodeChameleon在7个LLM上实现平均86.6%的攻击成功率,显著提升了安全性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models》的翻译。

CodeChameleon:用于越狱的大型语言模型的个性化加密框架

摘要

对抗性滥用,特别是通过绕过模型的安全和道德协议的“越狱”,对大型语言模型(LLM)构成了重大挑战。本文深入研究了这种成功攻击背后的机制,引入了对齐LLM安全机制的假设:意图安全识别,然后生成响应。基于这一假设,我们提出了CodeChameleon,这是一种基于个性化加密策略的新型越狱框架。为了避开意图安全识别阶段,我们将任务重新制定为代码完成格式,使用户能够使用个性化加密功能对查询进行加密。为了保证响应生成功能,我们在指令中嵌入了一个解密函数,使LLM能够成功地解密和执行加密的查询。我们在7个LLM上进行了广泛的实验,实现了最先进的平均攻击成功率(ASR)。值得注意的是,我们的方法在GPT-4-1106上实现了86.6%的ASR。代码可在https://github.com/huizhang-L/CodeChameleon找到.

1 引言

2 相关工作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值