大模型训练显存快速计算办法

大模型训练显存快速估算方法

最新推荐文章于 2025-10-29 00:25:55 发布

原创最新推荐文章于 2025-10-29 00:25:55 发布 · 523 阅读

CC 4.0 BY-SA版权

文章标签：

以下两套「拿来即用」的显存估算公式，并分别用 14 B 模型举例。
所有数字都以 单卡、混合精度（FP16/BF16）、AdamW 优化器 为缺省条件，单位 GB。

一、通用估算框架
显存 ≈ 静态占用＋动态占用

表格

复制

组成项	静态/动态	公式（单位：字节）	说明
Model 权重	静态	Φ × 2	14 B 模型 ⇒ 28 GB
Grad 梯度	静态	Φ × 2	14 B 模型 ⇒ 28 GB
Adam States	静态	Φ × 8（一阶+二阶 FP32）	14 B 模型 ⇒ 112 GB
Activation	动态	f(batch, seq, layers)	经验≈ 10–30 GB（可调）
框架/缓存	–	预留 5–10 GB	–

Φ = 参数量；14 B ⇒ Φ = 1.4 × 10¹⁰。

二、SFT（全参数微调）示例

代入公式

复制

静态 = (2 + 2 + 8) × Φ = 12 × Φ
     = 12 × 14 GB ≈ 168 GB
动态 = 20 GB（batch=1, seq=2048 经验值）
框架 = 8 GB
总计 ≈ 196 GB

快速记忆法
“12 × 参数量 GB” 即可粗略得出 SFT 峰值显存需求。
14 B ⇒ 约 200 GB；7 B ⇒ 约 100 GB。

三、LoRA 示例

LoRA 只训练 低秩矩阵，设秩 r=16、α=32，常见比例：

表格

复制