NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constrain

该文章提出了原生多模态大语言模型NaViL,通过端到端训练探索数据约束下的设计空间与缩放特性,突破了传统组合式训练范式的局限,在14个多模态基准测试中展现出竞争力。
在这里插入图片描述

一、文章主要内容总结

  1. 研究背景
    • 现有多模态大语言模型(MLLMs)多采用组合式训练范式,即分别预训练视觉编码器和语言模型(LLM),再通过多模态训练整合,存在多模态缩放特性不明确、视觉-语言对齐不足等问题。
    • 原生MLLMs虽以端到端方式联合优化视觉和语言空间,但此前研究多假设训练资源无限,未充分考虑数据有限和大规模训练的实际挑战。
  2. 核心研究过程
    • 架构设计探索:研究原生MLLM关键组件选择,包括LLM初始化、混合专家(MoE)架构有效性、视觉编码器结构。发现基于预训练LLM初始化可加速收敛,MoE能提升模型性能且不增加激活参数,视觉编码器在较宽的深度和宽度范围内均能实现近最优性能。
    • 缩放特性分析:独立缩放LLM和视觉编码器时,LLM遵循传统缩放定律(参数指数增加时损失线性下降),而视觉编码器受LLM容量限制存在性能上限;联合缩放时,视觉编码器最优规模与LLM规模在对数尺度上呈线性比例关系。
    • 模型构建与训
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值