DeepSeek底层揭秘——FP8混合精度训练

最新推荐文章于 2025-06-18 00:02:07 发布

原创

最新推荐文章于 2025-06-18 00:02:07 发布 · 2.1k 阅读

CC 4.0 BY-SA版权

文章标签：

1. FP8混合精度训练

(1) 定义

FP8混合精度训练是一种深度学习训练优化技术，利用 8位浮点数（FP8） 表示部分模型参数和计算结果，同时结合更高精度（如 FP16 或 FP32）进行关键计算，从而在保证模型精度的前提下显著降低计算成本和内存占用。

FP8（8-bit Floating Point）是一种新兴的数值表示格式，具有更低的存储需求和计算复杂度。相比传统的 FP32（32位浮点数）和 FP16（16位浮点数），FP8 的表示范围更小，但通过混合精度训练策略，可以在不显著损失模型性能的情况下，提升训练效率。

(1) 减少内存占用

(2) 加速计算

功能：FP8 格式的计算复杂度更低，能够显著提升训练速度。
实现方式：
- 使用支持 FP8 运算的硬件（如 NVIDIA Hopper GPU）加速矩阵乘法和卷积操作。
- 在关键计算（如梯度累积）中使用更高精度（FP16/FP32）以保证数值稳定性。

(3) 保证数值稳定性

(4) 提升硬件利用率

(1) FP8 数值格式

核心思想：FP8 是一种 8 位浮点数格式，通常分为两种变体：
- E4M3：4 位指数，3 位尾数，适用于动态范围较大的数据。
- E5M2：5 位指数，2 位尾数，适用于动态范围较小但需要更高精度的数据。
关键技术：
- 动态选择 FP8 格式（E4M3 或 E5M2）以适应不同的计算需求。
- 在训练过程中动态调整 FP8 的缩放因子（Scaling Factor）