混合精度与单精度对比

混合精度训练

最新推荐文章于 2025-09-22 13:10:24 发布

原创最新推荐文章于 2025-09-22 13:10:24 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

深度学习专栏收录该内容

8 篇文章

订阅专栏

本文探讨了混合精度在深度学习训练中的应用。使用较少的代码改动即可实现，尤其适用于显存有限的情况。实验证明，在PASCAL架构显卡上，虽然能增加批次大小，但训练时间会有所延长。

使用混合精度代码更改很少

scaler = GradScaler()


with autocast():
    out = model(data)
    loss = loss_func(out, target)
scaler.scale(loss).backward()
scaler.step(opt)
scaler.update()

只有PASCAL架构显卡

CIFAR1000最大批次
TITAN X PASCAL 12G
单精度batch=3100 混合精度batch=5000 批次大小提升61%倍
GTX1070 8G
单精度batch=2000 混合精度batch=2900 批次大小提升45%倍

CIFAR1000速率测试
batch=2500
TITAN X PASCAL 12G
单精度 15.47s/batch 混合精度 22.8秒/bitch 速率变慢了47%
GTX1070 8G
单精度 18.13s/batch 混合精度 29.6秒/bitch 速度变慢了63%

显存不够可以试试混合精度，PASCAL架构显卡混合精度更慢，有tensor core显卡应该可以加速。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shulongjiang

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【基础架构篇三】《DeepSeek混合精度训练：FP16/BF16性能对比实验》

商务合作|问题讨论|交流学习请联系作者微信，加微信请务必注明来意，博客主页有联系方式

02-18

731

大家好，我是你们的混合精度训练向导。今天咱们要聊的可不是普通的"技术科普"，而是要像拆解瑞士机械表那样，把DeepSeek最新发布的混合精度训练方案扒个底朝天。准备好了吗？咱们先从最硬核的硬件原理聊起，一路杀到炼丹师最关心的实战调参技巧，全程高能预警！

量化感知训练与混合精度量化：深度神经网络的精度-效率平衡艺术

qq_43664407的博客

06-07

992

：通过量子化-稀疏化-混合精度三联技术，实现Llama-300B模型在智能手表运行，彻底打破硬件算力藩篱。当前最新进展显示，NVIDIA Blackwell架构支持INT2计算，同精度下能效比提升900%，正加速这一愿景成为现实。，让神经网络在训练过程中"预演"量化效果，通过调整权重分布来主动适应低精度计算环境。，根据各层敏感度动态分配FP16/INT8/INT4等不同精度资源。实验表明INT4模型对抗攻击成功率下降37%当前Swish/GELU量化误差尚无解析解。量化感知训练（QAT）是一种。

参与评论您还未登录，请先登录后发表或查看评论

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练

胖胖大海的博客

11-17

6591

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed（环境没搞起来）模型训练代码，并对比不同方法的训练速度以及GPU内存的使用

机器学习笔记

qq_33790600的博客

10-26

1307

1 机器学习基础 1.1 特征工程问题：为什么要对特征做归一化？

【训练技巧】torch.cuda.amp.GradScaler() 深入详解

最新发布

一碗白开水一

09-22

946

PyTorch的GradScaler是自动混合精度(AMP)训练的核心组件，主要解决float16数值精度不足的问题。它通过动态缩放梯度，将梯度值保持在float16的安全范围内：先放大梯度避免下溢，优化前再恢复原始量级。其数学原理确保不影响优化方向。典型使用需配合autocast()上下文，优势包括显存减半、计算加速2-8倍、自动数值保护等。注意事项包括仅支持CUDA设备、避免手动梯度处理等。该技术能显著提升大模型训练效率，已成为现代深度学习标配。

MinMaxScaler中的scale_属性和min_属性

weixin_57788010的博客

03-16

687

对数据进行归一化，如果使用归一化之后的数据进行了预测，得到了预测值，这个时候需要将预测值反归一化回来，这时候便可以使用MinMaxScaler中的scale_属性和min_属性。具体意思可以看下面这个代码理解。

self._scaler.scale(loss).backward(create_graph=create_graph)

weixin_44012667的博客

12-04

592

使用技术对损失进行缩放后进行反向传播，同时可能生成计算图以便计算梯度。

单精度、双精度、多精度和混合精度计算的区别是什么?

strongerHuang

11-25

2164

关注+星标公众号，不错过精彩内容编排 | strongerHuang微信公众号|嵌入式专栏我们学过数学，都知道有理数和无理数，然后在有理数中有一类叫浮点数的数字，不知道大家对这些还有...

apex和pytorch autocast混合精度训练速度和时间对比

Lisen’s blog

06-23

1976

众所周知，自从pytorch更新1.6版本之后，就引入了自家的混合精度训练模式（下面统称autocast），这种方法简单，只需要添加几行代码即可实现，可以说是pytorch爱好者的福音。autocast在面对主流的apex时，是完爆还是被吊打呢，请看下面分析：模型架构：Transformer-xl 环境：python3.6.9 、torch1.7.1、cuda==10.1 1、即不用apex，也不用autocast batch size = 1 占用内存：7561M，每个batch的时间为285

AI随笔之单精度训练VS混合精度训练（大白话版本）

尽吾所能分享永久免费知识

07-05

690

单精度训练VS混合精度训练

混合精度、异构计算——杂记

保持写作习惯，完成知识沉淀

08-04

850

SM是streaming multiprocessor的简写，4个处理单元组成一个SM，如Figure 2。每个SM有64个INT32，64个FP32，32个FP64的CUDA core；每个SM还有4个Tensor Core。SM内共享L1缓存。CUDA Core是用作通用计算的，Tensor Core是专门针对深度学习优化的，负责矩阵运算、混合精度运算。Figure 1Figure 3展示了NVDIA不同代GPU的特性。Figure 3. 各代GPU架构。

混合精度训练（Mixed Precision Training）

mayaohao的博客

08-20

972

数值精度是计算机存储和计算浮点数（带小数点的数，如 3.14、0.0012）时的 “精度等级”，核心差异在于占用的内存位数—— 位数越多，精度越高，但内存 / 显存消耗也越大，计算速度越慢。精度类型英文缩写内存占用（每数值）精度特点适用场景单精度浮点数FP3232 位（4 字节）精度高、动态范围大（可表示极大小的数），数值误差小传统深度学习训练（默认选择）半精度浮点数FP1616 位（2 字节）

科普 | 单精度、双精度、多精度和混合精度计算的区别是什么?

weixin_44966641的博客

09-05

8282

科普 | 单精度、双精度、多精度和混合精度计算的区别是什么? 转自：https://zhuanlan.zhihu.com/p/93812784 我们提到圆周率 π 的时候，它有很多种表达方式，既可以用数学常数3.14159表示，也可以用一长串1和0的二进制长串表示。圆周率 π 是个无理数，既小数位无限且不循环。因此，在使用圆周率进行计算时，人和计算机都必须根据精度需要将小数点后的数字四舍五入。在小学的时候，小学生们可能只会用手算的方式计算数学题目，圆周率的数值也只能计算到小数点后两位——3.14；而高中

python中scale函数_python – R.scale()和sklearn.preprocessing.scale()之间的区别

weixin_39938875的博客

12-03

1319

我目前正将数据分析从R转移到Python.在R i中缩放数据集时,将使用R.scale(),在我的理解中将执行以下操作：(x-mean(x))/ sd(x)要替换该函数,我尝试使用sklearn.preprocessing.scale().根据我对描述的理解,它做了同样的事情.尽管如此,我运行了一个小测试文件并发现,这两种方法都有不同的返回值.显然,标准偏差并不相同……有人能够解释为什么标准偏差会...

AMP训练（Automatic mixed precision、training、autocast、GradScaler、scale、unscale、DP、DDP）

Le0v1n 的博客

02-07

4039

关键词：Automatic mixed precision、training、autocast、GradScaler、scale、unscale、DP、DDP

PyTorch微调终极指南1：预训练模型调整

新缸中之脑

11-19

2018

快速总结定义模型浮点精度是指深度学习模型计算时用来表示数值的数据类型。在 PyTroch 中，32 位（float32 或 FP32）和 16 位（float16 或 FP16 或半精度）是两种常用的浮点精度。float32 — 这种精度提供了宽动态范围和高数值精度，允许精确计算，但会消耗更多内存。FP32 使用 32 位来表示数字。float16 — 这种较低的精度可以减少模型的内存占用和计算要求，从而潜在提高效率和速度。然而，它可能会导致数值精度损失，并可能影响模型的准确性或收敛性。

PyTorch AMP 混合精度中grad_scaler.py的scale函数解析

阿正的梦工坊

01-02

1441

作用是将输出张量按当前缩放因子进行缩放。通过递归函数apply_scale，该函数能够处理嵌套的张量结构

torch.cuda.amp

Mr_wuliboy的博客

09-19

1959

自动混合精度（Automatic Mixed Precision, AMP）训练，是在训练一个数值精度为32的模型时，一部分算子的操作数值精度为FP16，其余算子的操作精度为FP32。在反向传播时，FP16的梯度数值溢出的问题，amp提供了梯度scaling操作，而且在优化器更新参数前，会自动对梯度 unscaling。但，作为上下文管理器使用时，混合精度计算enable区域得到的FP16数值精度的变量在enable区域外要显式的转换成FP32，否则使用过程中可能会导致类型不匹配的错误。

pytorch 使用amp.autocast半精度加速训练