由上海人工智能实验室(上海AI实验室)、中国科学院深圳先进技术研究院、中国科学院大学、香港大学、复旦大学、南京大学计算机软件新技术国家重点实验室联合提出的多模态大模型视频理解能力基准MVBench,入选本届CVPR Highlight论文名单。
联合团队在题为《MVBench: A Comprehensive Multi-modal Video Understanding Benchmark》的论文中提出的MVBench,由20项复杂视频任务组成,用于全面评测现有多模态模型的视频理解能力。同时,基于对已有多模态模型的缺陷分析,提出了更强大的基线模型VideoChat2。所有代码、模型权重、训练数据、评测数据均已开源。

论文链接:
https://arxiv.org/pdf/2311.17005
开源链接:
https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2
在线demo体验:
评测数据集:
https://huggingface.co/datasets/OpenGVLab/MVBench
指令微调数据:
https://huggingface.co/datasets/OpenGVLab/VideoChat2-IT
模型实时排行榜:

最低0.47元/天 解锁文章
673

被折叠的 条评论
为什么被折叠?



