MMAR: 首个面向音频深度推理的全模态基准测试

论文:  https://arxiv.org/abs/2505.13032

GitHub: https://github.com/ddlBoJack/MMAR

数据集:  https://huggingface.co/datasets/BoJack/MMAR

随着大型语言模型和音频处理技术的飞速发展,音频 AI 已经在语音识别、音频描述和音乐分析等任务上取得了显著进展。然而,当前的音频 AI 系统在处理需要深度推理的复杂任务时仍面临严峻挑战。例如,理解多人对话中的情感变化、分析复杂音乐场景,或推断环境声音背后的事件链等需要深度推理能力的任务,都超出了现有系统的处理范围。

为填补这一关键空白,来自2077AI、整数智能、上海交通大学、字节跳动、南洋理工大学、伦敦玛丽女王大学等机构的研究团队共同推出了 MMAR(多模态音频推理)基准测试。该项目由上海交通大学牵头,2077AI 提供核心数据工程支持,联合字节跳动、南洋理工大学等机构的专家团队,共同完成了这一开创性工作。

1. MMAR基准测试预览

传统的音频 AI 基准测试往往将不同音频模态割裂开来,难以反映真实世界中声音、音乐、语音频繁交织的复杂场景。例如,AudioBench 专注于单一声音事件识别,MusicBench 仅评估音乐理解能力,而实际应用中的音频场景往往更加复杂多变。这种割裂的评估方式难以推动音频 AI 向更高层次发展。

MMAR 突破性地构建了包含1,000个多模态音频样本的评测集。每个样本都经过精心设计,确保既能评估模型的基础感知能力,又能测试其深层推理水平。在数据分布上,MMAR 实现了纯声音、纯音乐、纯语音各占约25%的均衡覆盖,同时特别保留25%的比例用于评估混合模态场景下的模型表现。这种设计既确保了评估的全面性,又特别强调了真实世界中最具挑战性的混合场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值