本文是LLM系列文章,针对《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的翻译。
MM1:多模态LLM预训练的方法、分析和见解
摘要
在这项工作中,我们讨论了建立高性能的多模态大型语言模型(MLLMs)。特别是,我们研究了各种体系结构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细而全面的消融,我们确定了几个关键的设计教训。例如,我们证明,与其他已发表的预训练结果相比,对于使用图像字幕、交错图像文本和纯文本数据的仔细混合的大规模多模态预训练,在多个基准上实现最先进的(SOTA)小样本结果是至关重要的。此外,我们还表明,图像编码器以及图像分辨率和图像token计数具有实质性影响,而视觉语言连接器设计的重要性相对可以忽略不计。通过放大所提出的配方,我们构建了MM1,这是一个高达30B参数的多模态模型家族,由密集模型和专家混合(MoE)变体组成,在预训练指标中是SOTA,并在对一系列已建立的多模态基准进行监督微调后实现竞争性能。得益于大规模的预训练,MM1具有增强的上下文学习和多图像推理等吸引人的特性,能够实现少样本的思维链提示。
1 引言
2 相关工作
3 构造MM1的配方
4 最终的模型和训练的配方
5 监督微调
6 结论
我们研究如何构建高性