AAAI 2026|SDEval:首个面向多模态模型的安全动态评估框架

随着多模态大语言模型(MLLMs)能力不断增强,其生成结果偏离预期、产生不真实甚至有害内容的风险也同步上升。尽管已有较完善的安全评测体系,但可靠评估仍面临三大挑战:

  • 数据泄漏:许多安全基准整合自开源数据集,极可能与模型训练数据重叠,从而削弱评测可信度并误导研究社区。

  • 数据静态、复杂度固定:现有基准多为人工构建、缺乏更新,难以匹配 MLLMs 的快速迭代,无法有效刻画模型的真实能力上限,迫切需要能动态调整复杂度的自动化框架。

  • 攻击手法不断演进:新的攻击方式层出不穷,安全基准也应及时更新,以持续检验模型的安全防护能力。

为应对上述挑战,上海人工智能实验室联合团队发布了最新研究成果 SDEval(已被 AAAI 2026 接收)。

核心贡献:

  • 提出了 SDEval,首个 MLLMs 安全动态评估框架,具备通用性,可应用于多类基准,并在能力评测中展现出抗饱和特性。

  • 设计了多样化的文本、图像与图文交互动态策略,并对其效果进行了系统性分析。

  • 进行了大量实验与消融研究验证所提出策略。实验表明,动态策略能够有效提升数据集复杂度并降低安全评估得分。

图片

论文链接:

https://arxiv.org/pdf/2508.06142

该工作目前已在司南 Daily Benchmark 专区上线

https://hub.opencompass.org.cn/daily-benchmark-detail/2508.06142

关于司南 Daily Benchmark 专区

  • AI 评测论文“追更神器”

  • 每日更新最新 AI 评测方向论文

  • 每篇论文都支持 AI 智能解读

查看更多最新 AI 评测论文,欢迎访问:

https://hub.opencompass.org.cn/daily-benchmark-list

SDEval 介绍

SDEval 利用多模态动态策略对原始评测基准进行修改,并使用修改后的样本来评估 MLLMs 的安全性,整体框架示意图如下:

图片

SDEval 基于三类动态机制生成新的图文样本,包括:

  • 文本动态(Text Dynamics):评估模型是否能稳健理解不同语言表达中的安全风险。

  • 图像动态(Image Dynamics):评估模型是否能识别图像中的风险因素。

  • 文本-图像动态(Text-Image Dynamics):评估模型在跨模态内容组合下是否会受到有害信息的干扰。

文本动态

基于人类规避安全审核的策略,设计了六类文本动态策略:

  • 词语替换:将文本中最多五个词替换为近义词或语境相似词。

  • 句子改写:通过不同句式表达相同语义,测试模型对问题本质的理解能力。

  • 添加描述:使用 GPT-4o 添加相关或无关描述,干扰模型注意力,削弱安全控制。

  • 拼写错误:随机添加拼写错误、重复或特定错字符,模拟人类规避审核方式。

  • 多语言混写:将原始句子改写为多语言混合表达(包括中、英、俄、法、日、韩)。

  • 思维链指令:在问题后添加 “answer step by step”,强制模型采用链式思维回答。

图像动态

为缓解评测数据与训练集重叠引发的数据泄漏问题,设计了两类图像动态策略:

基础增强:

  • 空间变换,对图像进行随机 padding、随机翻转,以测试模型在不同空间变换下是否仍能识别风险目标。

  • 颜色变换,包括色彩反转、添加随机密度的椒盐噪声,以测试模型对色彩变化和视觉干扰的鲁棒性。

生成与编辑

  • 生成:通过 GPT-4o 生成图像描述,使用 Stable Diffusion 生成新图,并验证语义一致性。

  • 编辑:使用 ICEdit 对原图进行物体/文本插入、风格转换(如水彩、素描、漫画)。

文本-图像动态

为提升动态样本多样性,设计跨模态动态策略生成新图文对,评估对模型安全的影响:

文生图

将文本扰动注入图像以增强跨模态影响。

图生文:

反向操作,将图像扰动注入文本。

跨模态越狱:

  • Figstep 字图提示越狱

将文本提示转为图像排版形式,使视觉输入引发越狱。

  • HADES 图像中植入风险词

将关键安全相关词汇从文本“转移”到图像中,使模型受到图像中的风险内容影响,同时保持原语义不变。

实验介绍

为验证 SDEval 的有效性,研究团队选取了两个综合性的多模态大模型安全基准作为动态评测对象:

  • MLLMGuard 构建了一系列对抗样本,用于测试 MLLMs 识别与应对“红队”攻击的能力。主要报告两项指标:ASD攻击成功度,衡量模型输出的“无害程度”;PAR完美回答率,所有输出中被视为安全、负责的回答占比。

  • VLSBench 旨在解决现有多模态安全基准中普遍存在的视觉安全信息泄漏问题。遵循其设定,计算 SR(Safety Rate)安全率,综合考虑安全拒答和安全警告的数量。

实验覆盖

  • 4 个闭源模型(GPT-4o、o3、Claude-4-Sonnet、Gemini 2.5-Pro)

  • 多组开源模型(Qwen-VL系列、Yi-VL系列、InternVL系列、LLaVA 系列)

评测结果

MLLMGuard 结果

图片

如表 1 所示:

  • 所有模型的安全率均显著下降,模型的安全控制能力极易被动态策略扰动。

  • 与 ASD 相比,PAR 的下降幅度更大,说明动态策略显著提升了任务难度,分散了模型注意力,削弱其安全判断能力。

VLSBench 结果

图片

如表 2 所示:

  • 闭源模型整体显著优于开源模型。其中 Claude-4-Sonnet 的安全率最高,也是最“安全”的模型。

  • 但即便如此,在应用动态策略后,所有模型安全性能均下降。包含安全警告的输出比例下降更明显。

  • 说明动态策略导致更多安全风险出现,从而降低模型整体安全率; MLLMs 在动态环境下仍面临巨大安全隐患。

MLLMs 能否应对安全动态评测?

实验结果显示:

  • 应用动态策略后,所有模型安全性能大幅下降,表明现有模型可能是在“记住”哪些回答是安全/不安全,而不是理解其背后的“安全要素”

  • 说明动态策略有效缓解了“数据污染”;当前 MLLMs 对安全本质并未真正理解。

Scaling Law 在安全动态评测中是否仍成立?

从实验看:

  • 参数量更大的模型 不一定更鲁棒,且没有明显规模律趋势;某些情况下大型模型甚至更脆弱。

  • 原因推测:参数规模提升增强了模型遵循人类指令的能力,无论指令是否有害。

  • 结论:当前 MLLMs 尚不能良好应对动态安全评测,如何在 AI 45° 法则下兼顾性能与安全仍是巨大挑战。

安全——能力平衡

研究团队进一步将 SDEval 应用于能力评测基准,探究动态策略是否同样影响模型的智能能力。

MLLMs 能力评测结果

图片

如表 4 所示,在 MMVet 和 MMBench 应用所提出的动态策略后:

  • 所有模型的各项能力指标均出现下降。

  • 这表明:SDEval 不仅适用于安全评测,也适用于更一般性的模型能力评测基准。

安全与能力的平衡

AI 45° 理论指出: AGI 的发展应同时考虑性能与安全,其安全与能力应沿着 45° 的平衡路线推进。

  • 短期内安全能力可能有偏转

  • 但长期来看,不应长期低于 45°(即安全不足),也不应高于 45°(即过度保守而阻碍发展)

为此,研究团队根据数据集规模对各模型在安全和能力两方面的动态评测得分进行加权,并绘制其能力–安全散点图。

图片

如图 5(a) 所示:

  • Claude-4-Sonnet 在安全性上表现最佳,同时其能力也处于较高水平

  • Gemini-2.5-Pro 在安全与能力上实现了较优的平衡,整体表现非常稳健

如图 5(b) 所示

  • 大多数 MLLMs 在安全性上的鲁棒性较差

  • 在动态策略下,安全性能损失更为显著

这进一步强调:未来 MLLMs 的发展亟需强化其安全能力,与智能能力协同提升。

总结

本文提出 SDEval,一个面向 MLLMs 的安全动态评估框架,用于缓解数据泄漏及静态基准复杂度不足的问题。

SDEval 引入了一个跨模态的综合动态评测框架,结合多种文本、图像以及文本–图像动态策略,从原始基准中生成变化样本,对模型安全性进行更真实与多样化的检验。

实验表明:

  • 该方法有效缓解了数据泄漏问题

  • 显著提升了静态基准的复杂度

  • 使评测能够随模型的发展共同演进

得益于其通用性,SDEval 可应用于各种现有的 MLLMs 安全基准。通过大规模实验,研究进一步揭示了当前 MLLMs 仍存在的安全风险,并指出未来可改进的方向。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值