SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models

# SDEval相关总结与翻译

一、文章主要内容

本文聚焦多模态大型语言模型(MLLMs)的安全评估问题,针对现有安全基准数据集存在的易过时、数据污染、复杂度固定以及难以应对新型攻击等缺陷,提出了首个用于MLLMs安全动态评估的框架——SDEval。

SDEval通过三种动态策略从原始基准生成新样本以实现动态评估,分别是文本动态、图像动态和文本-图像动态。文本动态采用词汇替换、句子改写、添加描述等六种方式修改文本提示,测试模型对不同语言表达中安全风险的理解能力;图像动态通过基础增强(空间变换、颜色变换)和生成与操作(基于描述生成新图、插入物体或文本、风格迁移)处理图像,评估模型识别图像中风险因素的能力;文本-图像动态则通过文本到图像生成、图像到文本生成以及跨模态越狱技巧,探究跨模态交互对模型安全的影响,且所有动态生成样本需经验证器确保语义一致性。

为验证SDEval的有效性,研究团队在多个安全基准(MLLMGuard、VLSBench)和能力基准(MMVet、MMBench)上对多种MLLMs(包括GPT-4o、Claude-4-Sonnet等闭源模型及Qwen-VL、InternVL等开源模型)展开实验。结果显示,SDEval显著降低了模型的安全率,缓解了数据污染问题,增加了数据集复杂度,同时还揭示出多数模型在安全方面的不稳定性高于能力层面,且模型参数规模与安全性能无明显关联,当前MLLMs在应对安全动态评估时仍存在较大安全风险,亟需进一步提升安全性能以实现能力与安全的平衡发展。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值