该文章提出了一种通过“回收”预训练模型 checkpoint 来高效扩展混合专家(MoE)大语言模型的框架,核心是深度和宽度两个正交增长策略,能大幅降低训练成本并提升性能。
一、文章主要内容
- 研究背景:大语言模型(LLM)预训练计算成本呈指数增长,大量已训练完成的 checkpoint 因模型容量限制未被充分利用,形成“沉没成本”,亟需高效复用方法。
- 核心框架:针对收敛后的 MoE 模型,提出两种正交增长策略,实现从较小模型向较大模型的扩展并延续训练。
- 深度增长(Depth Growth):采用“插入式层复制”(interpositional layer copying),将每个原始层原位复制多次,而非传统的“堆叠式”(stacking)复制,以保留模型层权重范数的固有趋势。
- 宽度增长(Width Growth):通过“带噪声注入的专家复制”(expert duplication with injected noise),在复制专家权重时加入小幅度高斯噪声,同时翻倍激活专家数量,促进新专家的功能特化。
- 关键发现:
- 模型最终性能与“沉没成本”(预训练计算量)呈强正相关,初始训练投入越多,扩展后性能越好。
- 深度增长在下游任务性能提升上更直接,宽度增长在扩展后模型稳定性上更具优势,尤其适配 Pre-LN 架构。

订阅专栏 解锁全文
787

被折叠的 条评论
为什么被折叠?



