How Far Are We to GPT-4V: Closing the Gap to Commercial Multimodal Models with Open-Source Suites
前言
InternVL系列梦开始的地方,奠定了InternVL在开源MLLMs中第一梯队的基础,其实方法简单粗暴,但是背后的数据集处理,模型训练这些dirty work,文章是永远体现不出来的,我想这也是InternVL能够中稿CVPR的关键原因吧。Paper | https://arxiv.org/pdf/2404.16821 |
---|---|
Code | https://github.com/OpenGVLab/InternVL |
From | CVPR 2024 |
Abstract
本文提出InternVL 1.5,一个开源的MLLM用于减小与商业闭源多模态大模型的差距。本文提出了如下三点提升:
- 更强的vision decoder。
- 动态高分辨率。
- 高质量中英文数据。
InternVL1.5在一系列Benchmark上进行了评测,与开源和商用模型相比显示有竞争力的性能,在18个多模态Benchmark上取得了SOTA。
Motivation
当前MLLMs虽然取得了巨大的成就,但是开源和商业的模型却有很大的差距。这主要体现在:
- 商业模型参数量