一、前言
近年来,开源多模态大语言模型(MLLM)成为人工智能领域的热点研究方向。它结合了视觉、语言等多种模态的信息处理能力,以期达到更高层次的智能理解。随着深度学习技术的快速发展,多模态大模型在图像理解、视觉生成、统一视觉模型、LLM加持的多模态大模型以及多模态智能体等方面取得了显著进展。
2023年,多模态大规模语言模型(MM LLMs)取得了新的突破。OpenAI发布了GPT-4v,展示了大模型在视觉领域的巨大潜力。Google I/O大会也发布了其最新的多模态大模型 Gemini,其技术亮点和新特性表明,大模型在视觉领域有了很大的突破,而且就在本周,OpenAI再次发布了新一代多模态大模型 GPT-4o,整体成本只有GPT-4的一半。然而,在开源界,一直未曾推出非常强大的多模态基础模型。
最近,由上海人工智能实验室 (Shanghai AI Laboratory)、商汤科技研究院 (SenseTime Research)、清华大学 (Tsinghua University)、南京大学 (Nanjing University)、复旦大学 (Fudan University) 和香港中文大学 (The Chinese University of Hong Kong) 的研究团队联合推出了新一代书生·视觉大模型(InternVL 1.5),完全开源免费。
二、关于 InternVL
InternVL 是一款旨在缩小开源和专有商业模型在多模态理解能力上差距的开源多模态大型语言模型。它在多模态理解方面的能力尤为突出,尤其是在处理高分辨率图像和支持多语言能力方面表现出色。InternVL 的核心组件包括一个强大的视觉编码器InternViT-6B和一个语言中间件QLLaMA。
2.1、主要特点
- 多模态性能提升:InternVL 1.5在OCR、多模态、数学和多轮对话等18个基准测试中的8个中取得了最先进的结果,显示了其在多模态理解方面的卓越性能。
- 强视觉编码器:模型采用了一种持续学习策略,显著提升了视觉理解能力,并且能够在不同的大型语言模型(LLM)中迁移和重用。
- 动态高分辨率:InternVL 1.5能够根据输入图像的长宽比和分辨率,动态地将图像划分为不同大小的图块,最高支持4K分辨率的输入。
- 双语数据集:通过收集和注释高质量的双语数据集,InternVL 1.5在OCR和中文相关任务中表现出色。
- ViT-MLP-LLM架构:模型采用了与流行的多模态大模型相似的架构,通过MLP映射器将预训练的视觉编码器与语言模型结合在一起,并通过Pixel Shuffle技巧减少了视觉标记的数量。
2.2、InternVL-6B
InternVL-6B 是一个基于 Transformer 架构的视觉编码器,参数规模达60亿,专为处理复杂的视觉输入而设计。QLLaMA作为语言处理的核心,参数规模为8亿,主要负责处理和生成语言内容,为多模态任务提供语言支持。首次提出了对比 - 生成融合的渐进式对齐技术,实现了视觉大模型与语言大模型在互联网级别数据上的精细对齐。
InternVL-6B 不仅能够处理复杂图片中的细微视觉信息,还能完成图生文任务,识别和解读复杂页面中的信息,甚至解决数理问题。该模型在多个视觉基准测试上取得了最优开源性能,在纯视觉任务和图生文任务上逼近或超过了谷歌的闭源 ViT-22B 模型,并在多模态大模型评测上与 GPT4V、Gemini 等模型竞争相当。
InternVL 在多个视觉-语言基准测试上展示了卓越性能,尤其是在OCR和文档理解方面。它能够有效识别和解释文档图像中的文字,支持零样本