文章主要内容和创新点
主要内容
本文聚焦于基于扩散的大型语言模型(dLLMs)的安全漏洞,指出这类模型因采用双向建模和并行解码机制,导致现有安全对齐机制失效,容易受到针对掩码输入的对抗性提示攻击。为此,研究团队提出了首个针对dLLMs的系统性越狱攻击框架DIJA。
DIJA通过构造交错的掩码-文本提示,利用dLLMs的双向建模特性(迫使模型为掩码部分生成上下文一致的内容,即使内容有害)和并行解码限制(无法动态过滤不安全内容),绕过安全防护,诱导模型生成有害输出。实验表明,DIJA在多个基准测试中显著优于现有越狱方法,例如在Dream-Instruct上实现了100%的关键词攻击成功率(ASR),在JailbreakBench上的评估者攻击成功率超过最强基线ReNeLLM达78.5%。研究强调,dLLMs的独特架构带来了新的安全威胁,亟需重新设计安全对齐机制。
创新点
- 首次系统性研究dLLMs的安全漏洞:识别并阐述了dLLMs因双向建模和并行解码机制产生的新型攻击路径,填补了该领域研究空白。
- 提出DIJA越狱攻击框架:通过自动化 pipeline 将普通有害提示转换为交错的文本-掩码提示,无需隐藏或改写有害内容即可高效诱导dLLMs生成有害输出,利用了dLLMs无法动态过滤不安全生成的特性。
- 实验验证有效性:在多个dLLMs模型和基准测试中,DIJA的攻击成功率显著优于现有方法,证明了dLLMs安全防护的脆弱性,为这类模型的安全对齐提供了
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



