
一、文章主要内容
(一)研究背景
随着融合视觉、听觉与文本处理的全模态大型语言模型(OLLMs)兴起,其安全评估至关重要,然而目前缺乏专门针对OLLMs的安全评估基准,现有基准无法评估音视频联合输入下的安全性能及跨模态安全一致性,难以满足OLLMs安全评估需求。
(二)Omni-SafetyBench基准构建
- 数据构成:以MM-SafetyBench中的972条数据为种子数据,构建涵盖单模态、双模态、全模态三大范式的基准,共24种模态组合,每种组合含972个样本,总样本量达23328个。其中单模态包括文本、图像、视频、音频;双模态有图像 - 文本、视频 - 文本、音频 - 文本等;全模态包含图像 - 音频 - 文本、视频 - 音频 - 文本等,且图像、视频、音频数据有不同变体,如扩散生成、排版式、混合式,音频还有带噪与不带噪之分。
- 数据构建流程:先筛选合适的种子数据,再通过特定工具将文本转换为多媒体数据(如用stable - diffusion-xl-base-1.0生成扩散图像、用Pyramid Flow生成扩散视频、用Microsoft edge-tts API生成音频),最后调整文本指令以保证逻辑一致性。
订阅专栏 解锁全文
2855

被折叠的 条评论
为什么被折叠?



