该文章提出了原生多模态大语言模型NaViL,通过端到端训练探索数据约束下的设计空间与缩放特性,突破了传统组合式训练范式的局限,在14个多模态基准测试中展现出竞争力。

一、文章主要内容总结
- 研究背景
- 现有多模态大语言模型(MLLMs)多采用组合式训练范式,即分别预训练视觉编码器和语言模型(LLM),再通过多模态训练整合,存在多模态缩放特性不明确、视觉-语言对齐不足等问题。
- 原生MLLMs虽以端到端方式联合优化视觉和语言空间,但此前研究多假设训练资源无限,未充分考虑数据有限和大规模训练的实际挑战。
- 核心研究过程
- 架构设计探索:研究原生MLLM关键组件选择,包括LLM初始化、混合专家(MoE)架构有效性、视觉编码器结构。发现基于预训练LLM初始化可加速收敛,MoE能提升模型性能且不增加激活参数,视觉编码器在较宽的深度和宽度范围内均能实现近最优性能。
- 缩放特性分析:独立缩放LLM和视觉编码器时,LLM遵循传统缩放定律(参数指数增加时损失线性下降),而视觉编码器受LLM容量限制存在性能上限;联合缩放时,视觉编码器最优规模与LLM规模在对数尺度上呈线性比例关系。
- 模型构建与训

订阅专栏 解锁全文
1475

被折叠的 条评论
为什么被折叠?



