THE DEVIL BEHIND THE MASK: AN EMERGENT SAFETY VULNERABILITY OF DIFFUSION LLMS

文章主要内容和创新点

主要内容

本文聚焦于基于扩散的大型语言模型(dLLMs)的安全漏洞,指出这类模型因采用双向建模和并行解码机制,导致现有安全对齐机制失效,容易受到针对掩码输入的对抗性提示攻击。为此,研究团队提出了首个针对dLLMs的系统性越狱攻击框架DIJA。

DIJA通过构造交错的掩码-文本提示,利用dLLMs的双向建模特性(迫使模型为掩码部分生成上下文一致的内容,即使内容有害)和并行解码限制(无法动态过滤不安全内容),绕过安全防护,诱导模型生成有害输出。实验表明,DIJA在多个基准测试中显著优于现有越狱方法,例如在Dream-Instruct上实现了100%的关键词攻击成功率(ASR),在JailbreakBench上的评估者攻击成功率超过最强基线ReNeLLM达78.5%。研究强调,dLLMs的独特架构带来了新的安全威胁,亟需重新设计安全对齐机制。

创新点
  1. 首次系统性研究dLLMs的安全漏洞:识别并阐述了dLLMs因双向建模和并行解码机制产生的新型攻击路径,填补了该领域研究空白。
  2. 提出DIJA越狱攻击框架:通过自动化 pipeline 将普通有害提示转换为交错的文本-掩码提示,无需隐藏或改写有害内容即可高效诱导dLLMs生成有害输出,利用了dLLMs无法动态过滤不安全生成的特性。
  3. 实验验证有效性:在多个dLLMs模型和基准测试中,DIJA的攻击成功率显著优于现有方法,证明了dLLMs安全防护的脆弱性,为这类模型的安全对齐提供了
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值