一、文章主要内容
本文围绕稠密和稀疏大型语言模型(LLM)的缩放定律展开研究,核心目标是解决现有缩放定律“架构特定”(仅适用于稠密或稀疏模型)的局限性,构建统一的通用缩放框架。
1. 研究背景
- 近年来,LLM规模呈指数级增长,训练计算成本随之飙升,如何精准预测模型规模、优化资源分配成为关键问题。
- 现有缩放定律多针对单一架构:稠密模型(如GPT-3、PaLM)激活所有参数,计算成本高;稀疏模型(如混合专家模型MoE、剪枝模型)仅激活部分参数(如DeepSeek-V3稀疏度达94.49%),但现有定律无法跨架构通用。
2. 现有缩放定律梳理
(1)稠密模型缩放定律
- Kaplan et al.(2020):提出损失与参数数量(N)、训练token数(D)、计算量(C)呈幂律关系,计算量公式为C=6NDC=6NDC
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



