FP32/FP16/BF16/FP8...一文搞懂大模型数据类型变迁

原创已于 2025-11-06 20:47:43 修改 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-11-06 20:45:15 首次发布

ModelEngine·创作计划征文活动 10w+人浏览 1.5k人参与

在大语言模型（LLM）的训练与部署中，“数据类型”是一个绕不开的核心话题。从早期的FP32到如今炙手可热的FP8，每一种数据类型的出现都伴随着模型效率与精度的权衡。本文将系统梳理LLM中常用的数据类型，解析它们的技术特性、适用场景以及在大模型时代的演变逻辑。

在深入具体类型前，我们需要先理解：数据类型对LLM意味着什么？

数据类型本质上是“数值的存储格式”，它决定了：

对于LLM而言，这三个维度的影响被无限放大：一个千亿参数模型若用FP32存储，仅权重就需数十TB空间，而训练过程中的中间激活值更是可能达到数百TB。因此，选择合适的数据类型是LLM落地的前提。

FP32是传统深度学习的默认类型，但在LLM中已极少作为主力：千亿参数模型的FP32权重需约4TB（1参数=4字节），而训练时的激活值可能是权重的10倍以上，普通GPU根本无法承载。目前仅在部分需要高精度的场景（如梯度累积的初始阶段）偶见使用。

FP16的存储成本仅为FP32的1/2，计算速度更快（现代GPU对FP16的算力是FP32的2-4倍）。但它的缺陷也很明显：指数位仅5位，导致数值范围狭窄（最小正数约6e-5），在LLM训练的梯度计算中容易出现“下溢”（梯度值过小被截断为0）。

为解决这一问题，实际训练中常采用“混合精度训练”：用FP16存储权重和计算，同时用FP32保存“主权重”用于梯度更新（避免精度丢失），这一方案在Transformer模型早期被广泛采用。

BF16是英特尔为深度学习设计的类型，与FP16的核心差异在于：牺牲尾数位精度，换取与FP32相同的数值范围。这一设计直击LLM训练的痛点——梯度和激活值可能出现极大或极小的数值，但对尾数位的精度要求并不高。

在实际应用中，BF16的表现远超预期：

目前，GPT-3、LLaMA等主流大模型的训练均以BF16为核心数据类型。

格式：8位（存在多种变体，如E4M3/E5M2）
- E4M3：1位符号+4位指数+3位尾数位（范围更大，精度较低）
- E5M2：1位符号+5位指数+2位尾数位（精度略高，范围较小）
精度：约1-2位有效数字，范围因变体而异
适用场景：LLM推理加速、低资源部署
在LLM中的角色：推理阶段的“新贵”

FP8是近两年LLM部署领域的“明星”，存储成本仅为FP16的1/2、FP32的1/4，计算效率理论上可提升4倍以上。但8位的限制使其在训练中难以应用（精度损失过大），主要聚焦于推理场景。

FP8的关键挑战是“量化策略”：如何将FP16/BF16的权重和激活值转换为FP8，同时尽可能保留模型性能。目前主流方案包括：