SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 198 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 3 个专栏收录

1838 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Evaluation

99 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Multimodal

177 篇文章

订阅专栏

# SDEval相关总结与翻译

一、文章主要内容

本文聚焦多模态大型语言模型（MLLMs）的安全评估问题，针对现有安全基准数据集存在的易过时、数据污染、复杂度固定以及难以应对新型攻击等缺陷，提出了首个用于MLLMs安全动态评估的框架——SDEval。

SDEval通过三种动态策略从原始基准生成新样本以实现动态评估，分别是文本动态、图像动态和文本-图像动态。文本动态采用词汇替换、句子改写、添加描述等六种方式修改文本提示，测试模型对不同语言表达中安全风险的理解能力；图像动态通过基础增强（空间变换、颜色变换）和生成与操作（基于描述生成新图、插入物体或文本、风格迁移）处理图像，评估模型识别图像中风险因素的能力；文本-图像动态则通过文本到图像生成、图像到文本生成以及跨模态越狱技巧，探究跨模态交互对模型安全的影响，且所有动态生成样本需经验证器确保语义一致性。

为验证SDEval的有效性，研究团队在多个安全基准（MLLMGuard、VLSBench）和能力基准（MMVet、MMBench）上对多种MLLMs（包括GPT-4o、Claude-4-Sonnet等闭源模型及Qwen-VL、InternVL等开源模型）展开实验。结果显示，SDEval显著降低了模型的安全率，缓解了数据污染问题，增加了数据集复杂度，同时还揭示出多数模型在安全方面的不稳定性高于能力层面，且模型参数规模与安全性能无明显关联，当前MLLMs在应对安全动态评估时仍存在较大安全风险，亟需进一步提升安全性能以实现能力与安全的平衡发展。