OMNI-SAFETYBENCH: A BENCHMARK FOR SAFETY EVALUATION OF AUDIO-VISUAL LARGE LANGUAGE MODELS

在这里插入图片描述

一、文章主要内容

(一)研究背景

随着融合视觉、听觉与文本处理的全模态大型语言模型(OLLMs)兴起,其安全评估至关重要,然而目前缺乏专门针对OLLMs的安全评估基准,现有基准无法评估音视频联合输入下的安全性能及跨模态安全一致性,难以满足OLLMs安全评估需求。

(二)Omni-SafetyBench基准构建

  1. 数据构成:以MM-SafetyBench中的972条数据为种子数据,构建涵盖单模态、双模态、全模态三大范式的基准,共24种模态组合,每种组合含972个样本,总样本量达23328个。其中单模态包括文本、图像、视频、音频;双模态有图像 - 文本、视频 - 文本、音频 - 文本等;全模态包含图像 - 音频 - 文本、视频 - 音频 - 文本等,且图像、视频、音频数据有不同变体,如扩散生成、排版式、混合式,音频还有带噪与不带噪之分。
  2. 数据构建流程:先筛选合适的种子数据,再通过特定工具将文本转换为多媒体数据(如用stable - diffusion-xl-base-1.0生成扩散图像、用Pyramid Flow生成扩散视频、用Microsoft edge-tts API生成音频),最后调整文本指令以保证逻辑一致性。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值