How Far Are We to GPT-4V: Closing the Gap to Commercial Multimodal Models with Open-Source Suites_how far are we to gpt-4v? closing the gap to comme-优快云博客

本文链接：https://blog.youkuaiyun.com/HERODING23/article/details/142984569

前言

InternVL系列梦开始的地方，奠定了InternVL在开源MLLMs中第一梯队的基础，其实方法简单粗暴，但是背后的数据集处理，模型训练这些dirty work，文章是永远体现不出来的，我想这也是InternVL能够中稿CVPR的关键原因吧。

Paper	https://arxiv.org/pdf/2404.16821
Code	https://github.com/OpenGVLab/InternVL
From	CVPR 2024

本文提出InternVL 1.5，一个开源的MLLM用于减小与商业闭源多模态大模型的差距。本文提出了如下三点提升：

InternVL1.5在一系列Benchmark上进行了评测，与开源和商用模型相比显示有竞争力的性能，在18个多模态Benchmark上取得了SOTA。

当前MLLMs虽然取得了巨大的成就，但是开源和商业的模型却有很大的差距。这主要体现在：