突破短视频局限！MMBench 构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

原创

已于 2024-12-23 15:27:13 修改 · 1.2k 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#音视频 #人工智能 #大模型评测 #OpenCompass

于 2024-12-23 15:19:40 首次发布

本文经量子位（公众号 ID: QbitAI）授权转载，作者：新宇

GPT-4o 四月发布会掀起了视频理解的热潮，而开源领军者 Qwen2 也对视频毫不手软，在各个视频评测基准上狠狠秀了一把肌肉。

但当前大部分评测基准仍然具有以下几个缺陷：

多注重于短视频，视频长度或视频镜头数不足，难以考察到模型的长时序理解能力；
对模型的考察局限在部分较为简单的任务，更多细粒度的能力未被大部分基准所涉及到；
现有的基准仍可以仅凭单帧图像以获取较高的分数，说明问题和画面的时序性关联不强；
对开放性问题的评估仍旧采用较旧的GPT-3.5，打分和人类偏好有较大的偏差且并不准确，容易高估模型性能。

针对这些问题，有没有对应的基准能够较好解决这些问题呢？

在最新的 NeurIPS D&B 2024 中由浙江大学联合上海人工智能实验室，上海交通大学和香港中文大学提出的 MMBench-Video 打造了一个全面的开放性视频理解评测基准，并针对当前主流 MLLM 构建了开源的视频理解能力评估榜单。

全能力链条覆盖高质量数据集

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。