BF16 和FP16 ，FP32区别以及转换方法

telllong

已于 2025-03-12 10:28:48 修改

阅读量1.2k

点赞数 22

分类专栏：深度学习文章标签：算法 python 人工智能

于 2025-03-12 10:14:45 首次发布

本文链接：https://blog.youkuaiyun.com/CHNIM/article/details/146197780

版权

深度学习专栏收录该内容

11 篇文章

订阅专栏

BF16、FP16 和 FP32 的介绍与区别

1. FP32（单精度浮点数）

结构：32 位（1 符号位，8 指数位，23 尾数位）。
动态范围：指数范围约为 10^-38 到 10^38（偏移 127）。
精度：约 7 位有效十进制数字。
用途：通用计算，需要高精度的场景（如科学计算）。
优点：高精度、大动态范围。
缺点：内存和计算资源消耗大。

2. FP16（半精度浮点数）

结构：16 位（1 符号位，5 指数位，10 尾数位）。
动态范围：指数范围约为 10^-5 到 10^5（偏移 15）。
精度：约 3-4 位有效十进制数字。
用途：深度学习推理、移动端部署。
优点：内存占用小，计算速度快。
缺点：易溢出/下溢，训练不稳定。

3. BF16（Brain Float16）

结构：16 位（1 符号位，8 指数位，7 尾数位）。
动态范围：与 FP32 相同（偏移 127）。
精度：约 2 位有效十进制数字。
用途：深度学习训练，替代 FP32 的轻量方案。
优点：大动态范围，减少溢出风险。
缺点：精度较低，可能需更多训练轮次。

主要区别

特性	FP32	FP16	BF16
指数位	8 位（范围大）	5 位（范围小）	8 位（同 FP32）
尾数位	23 位（高精度）	10 位（中精度）	7 位（低精度）
动态范围	最大10^±38	较小10^±5	同 FP32 10^±38
内存占用	4 字节	2 字节	2 字节
典型用途	高精度计算	推理、移动端	训练

优缺点对比

FP32
- 优点：高精度，适合复杂计算。
- 缺点：资源消耗高，不适合大规模训练。
FP16
- 优点：节省资源，加速计算。
- 缺点：数值不稳定，需混合精度（搭配 FP32 副本）。
BF16
- 优点：动态范围大，训练稳定。
- 缺点：精度低，可能需更长时间收敛。

互相转换方法

FP32 ↔ FP16
- 转换步骤：
  - 调整指数偏移（FP32 偏移 127 → FP16 偏移 15）。
  - 截断尾数（23 位 → 10 位），可能导致精度损失。
- 风险：溢出（超出 FP16 范围时）或下溢（过小的值变为 0）。
FP32 ↔ BF16
- 转换步骤：
  - 指数部分直接复制（两者偏移均为 127）。
  - 截断尾数（23 位 → 7 位），精度损失显著。
- 优势：动态范围不变，适合保留梯度大小。
FP16 ↔ BF16
- 转换步骤：
  - 调整指数偏移（FP16 偏移 15 → BF16 偏移 127）。
  - 扩展/截断尾数（FP16 10 位 ↔ BF16 7 位）。
- 挑战：BF16 可能无法表示 FP16 的大数值。

实际应用建议

训练阶段：优先使用 BF16 或混合精度（FP16 + FP32），平衡速度和稳定性。
推理阶段：使用 FP16 减少内存占用，提升速度。
数值敏感场景（如科学计算）：坚持 FP32 保证精度。

通过合理选择数据类型，可在深度学习任务中显著优化资源利用和计算效率。

在 PyTorch 和 Hugging Face Transformers 中，BF16、FP16 和 FP32 都有明确定义，且提供了直接的转换函数。以下是具体说明和示例：

1. PyTorch 中的数据类型定义

FP32 (float32)：标准单精度浮点数，对应 torch.float32。
FP16 (float16)：半精度浮点数，对应 torch.float16 或 torch.half。
BF16 (bfloat16)：Google 提出的浮点格式，对应 torch.bfloat16（需 PyTorch 1.10+）。

import torch

# 定义不同精度的张量
tensor_fp32 = torch.tensor([3.1415], dtype=torch.float32)
tensor_fp16 = tensor_fp32.to(torch.float16)  # 转为 FP16
tensor_bf16 = tensor_fp32.to(torch.bfloat16) # 转为 BF16

2. 数据类型互相转换

(1) 直接转换方法

PyTorch 支持通过 .to() 或 .type() 直接转换：

# FP32 → FP16/BF16
tensor_fp16 = tensor_fp32.half()        # 等价于 .to(torch.float16)
tensor_bf16 = tensor_fp32.bfloat16()    # 等价于 .to(torch.bfloat16)

# FP16/BF16 → FP32
tensor_fp32_from_fp16 = tensor_fp16.float()
tensor_fp32_from_bf16 = tensor_bf16.float()

(2) 混合精度训练

PyTorch 的 autocast 和 GradScaler 可自动管理精度转换，减少显存占用：

from torch.cuda.amp import autocast, GradScaler

scaler = GradScaler()  # 用于梯度缩放（防止FP16下溢）

with autocast(dtype=torch.bfloat16):  # 或 dtype=torch.float16
    # 模型前向计算自动转为 BF16/FP16
    outputs = model(inputs)
    loss = loss_fn(outputs, labels)

# 反向传播时自动转回 FP32
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

3. Hugging Face Transformers 中的支持

Transformers 库完全兼容 PyTorch 的数据类型，并提供了训练参数直接启用混合精度：

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    bf16=True,       # 启用 BF16 混合精度训练
    # fp16=True,     # 或启用 FP16 混合精度
    ...
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
)
trainer.train()

4. 关键注意事项

硬件兼容性：
- BF16：需要 Ampere 架构及以上 GPU（如 A100、RTX 3090/4090）和 PyTorch 1.10+。
- FP16：广泛支持（NVIDIA GPU 从 Pascal 架构开始）。
数值稳定性：
- FP16：需搭配梯度缩放（GradScaler）防止下溢。
- BF16：动态范围与 FP32 一致，训练更稳定。
性能对比：
- 训练速度：BF16/FP16 比 FP32 快 1.5~3 倍。
- 内存占用：BF16/FP16 的显存占用约为 FP32 的一半。

5. 代码示例：完整转换流程

# 创建 FP32 张量
x_fp32 = torch.randn(3, 3, dtype=torch.float32)

# 转为 BF16 和 FP16
x_bf16 = x_fp32.to(torch.bfloat16)
x_fp16 = x_fp32.half()

# 转回 FP32
x_fp32_from_bf16 = x_bf16.float()
x_fp32_from_fp16 = x_fp16.float()

# 检查误差
print("BF16 误差:", torch.abs(x_fp32 - x_fp32_from_bf16).max())  # 通常 < 0.01
print("FP16 误差:", torch.abs(x_fp32 - x_fp32_from_fp16).max())  # 可能更大（因动态范围小）