本文经量子位(公众号 ID: QbitAI)授权转载,作者:新宇
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者 Qwen2 也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
但当前大部分评测基准仍然具有以下几个缺陷:
-
多注重于短视频,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力;
-
对模型的考察局限在部分较为简单的任务,更多细粒度的能力未被大部分基准所涉及到;
-
现有的基准仍可以仅凭单帧图像以获取较高的分数,说明问题和画面的时序性关联不强;
-
对开放性问题的评估仍旧采用较旧的GPT-3.5,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。
针对这些问题,有没有对应的基准能够较好解决这些问题呢?
在最新的 NeurIPS D&B 2024 中由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的 MMBench-Video 打造了一个全面的开放性视频理解评测基准,并针对当前主流 MLLM 构建了开源的视频理解能力评估榜单。


最低0.47元/天 解锁文章
2045

被折叠的 条评论
为什么被折叠?



