机器学习中为什么要用混合精度训练

原创于 2025-06-27 23:43:11 发布 · 274 阅读

CC 4.0 BY-SA版权

文章标签：

21 篇文章

订阅专栏

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

FP16与显存占用关系

显存（Video RAM，简称 VRAM）是显卡（GPU）专用的内存。

FP32（单精度浮点）：传统深度学习默认使用32位浮点数

每个参数占用`4字节`

例如：1亿参数的模型 → 约400MB显存

FP16（半精度浮点）：

每个参数占用`2字节`（直接减半）

相同模型 → 约200MB显存

双精度浮点（FP64）占 8字节。
EEE 754标准：FP64遵循该国际标准，用 64位（8字节）存储一个浮点数

混合精度方案的解决方式：

关键部分保留FP32：

    模型权重在优化时会保留FP32副本（主权重）

    损失计算使用FP32

非关键部分使用FP16：

    前向传播的中间激活值

    反向传播的梯度

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型