该文章提出了一种名为LatentBreak的白盒越狱攻击方法,能生成低困惑度的自然对抗性提示,有效规避基于困惑度的过滤器,同时在多种安全对齐模型上表现优于现有越狱算法。
一、文章主要内容
- 研究背景
- 越狱攻击是绕过大型语言模型(LLMs)内置安全机制的对抗性攻击,现有自动越狱方法多通过优化对抗性后缀或调整长提示模板实现,但生成的提示困惑度高,易被基于困惑度的过滤器检测。
- 部分方法如AutoDAN虽能降低平均困惑度,但因依赖长模板,仍存在局部高困惑度峰值,难以完全规避检测。
- LatentBreak方法
- 核心思路:通过词级替换,用语义等效词替换有害提示中的词汇,在保留原始提示意图的同时,将提示在 latent 空间的表示向无害请求区域靠拢,生成低困惑度提示。
- 关键步骤:首先初始化距离度量和原始有害提示;然后对提示中的每个词,利用替换模型生成候选替换词;接着计算替换后提示在 latent 空间与无害提示质心的距离,结合意图判断模型筛选出既能缩短距离又保留语义的替换词;最后迭代优化,直至生成能成功越狱的提示或达到最大迭代次数。
- 实验验证
- 实验设置:在多种开源安全调优模型(如Llama系列、Vicuna-13B等)上进行测试,使用HARMBENCH数据集的159个“标准”

订阅专栏 解锁全文
487

被折叠的 条评论
为什么被折叠?



