NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constrain

最新推荐文章于 2025-12-02 15:55:42 发布

UnknownBody

最新推荐文章于 2025-12-02 15:55:42 发布

阅读量102

点赞数 3

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/155306657

LLM Daily 同时被 2 个专栏收录

1707 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

166 篇文章

订阅专栏

该文章提出了原生多模态大语言模型NaViL，通过端到端训练探索数据约束下的设计空间与缩放特性，突破了传统组合式训练范式的局限，在14个多模态基准测试中展现出竞争力。
在这里插入图片描述

一、文章主要内容总结

研究背景
- 现有多模态大语言模型（MLLMs）多采用组合式训练范式，即分别预训练视觉编码器和语言模型（LLM），再通过多模态训练整合，存在多模态缩放特性不明确、视觉-语言对齐不足等问题。
- 原生MLLMs虽以端到端方式联合优化视觉和语言空间，但此前研究多假设训练资源无限，未充分考虑数据有限和大规模训练的实际挑战。
核心研究过程
- 架构设计探索：研究原生MLLM关键组件选择，包括LLM初始化、混合专家（MoE）架构有效性、视觉编码器结构。发现基于预训练LLM初始化可加速收敛，MoE能提升模型性能且不增加激活参数，视觉编码器在较宽的深度和宽度范围内均能实现近最优性能。
- 缩放特性分析：独立缩放LLM和视觉编码器时，LLM遵循传统缩放定律（参数指数增加时损失线性下降），而视觉编码器受LLM容量限制存在性能上限；联合缩放时，视觉编码器最优规模与LLM规模在对数尺度上呈线性比例关系。
- 模型构建与训

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。