GLaM深度解析:1.2万亿参数MoE模型如何用1/3成本超越GPT-3?
2021年,当GPT-3以1750亿参数刷新大模型性能上限时,业界普遍认为"更大参数=更高成本"是不可打破的定律。但Google发布的GLaM(Generalist Language Model) 却颠覆了这一认知——这款采用混合专家模型(MoE)的1.2万亿参数模型,不仅在零样本学习任务中超越GPT-3,更将推理成本压缩至1/3。本文将深入拆解GLaM的技术突破,揭示其如何通过"稀疏激活+智能路由"实现效率与性能的双重飞跃。
一、技术背景:密集模型的"性价比陷阱"
2020-2021年,大模型陷入"参数竞赛":从GPT-3(175B)到MT-NLG(530B),参数规模翻倍增长,但训练和推理成本呈超线性上升。传统密集模型(Dense Model)的核心痛点逐渐暴露:
- 计算效率低下:每个token需要激活模型所有参数(如GPT-3的1750亿参数),即使对于简单任务,也需消耗相同算力;
- 显存瓶颈严苛:530B参数的MT-NLG需要32张80GB A100才能容纳,硬件门槛极高;
- 性能边际递减:参数从100B增至500B时,BLEU得分仅提升2-3分,性价比持续下降。
此时,Google基于GShard的MoE(混合专家模型)经验,提出GLaM——通过条件计算(Condi