tensorflow 混合精度训练

最新推荐文章于 2025-03-14 08:08:32 发布

冰菓(笑)

最新推荐文章于 2025-03-14 08:08:32 发布

阅读量5.6k

点赞数

分类专栏：深度学习 keras

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/a362682954/article/details/104774539

版权

混合精度训练结合16位和32位浮点类型，加速模型训练，减少内存使用，尤其在现代GPU和TPU上效果显著。TensorFlow 2.1及以上版本支持混合精度，但在NVIDIA GPU上，只有计算能力7.0及以上的GPU能从中受益。损失缩放是避免数值下溢的关键，通过乘以和除以大数来调整。模型设计中，如使用Dense、Conv2d等层时，适当设置单位数量能提高效率。使用混合精度需注意输出层为float32，训练循环中使用混合精度优化器，并根据设备调整批大小和维度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

混合精度是指在训练期间在模型中同时使用16位和32位浮点类型，以使其运行更快并使用更少的内存。通过将模型的某些部分保持在32位类型中以保持数值稳定性，模型将具有更短的步长时间，并且在评估指标（如准确性）方面同样可以训练。可以在现代GPU和TPU上将性能提高。

tensorflow自带了混合精度训练，但是要求版本在2.1以上。

而混合精度训练需要一定的硬件配置。虽然混合精度可以在大多数硬件上运行，但只能加速最近的NVIDIA GPU和Cloud TPU上的模型。NVIDIA GPU支持混合使用float16和float32，而TPU支持混合使用bfloat16和float32。

在NVIDIA GPU中，具有7.0或更高计算能力的GPU将受益于混合精度，因为它们具有称为Tensor Core的特殊硬件单元，可以加速float16矩阵乘法和卷积。较旧的GPU不能提供混合精度带来的数学性能优势，但是节省内存和带宽可以提高速度。您可以在NVIDIA的CUDA GPU网页上查找GPU的计算能力。从混合精度中受益最多的GPU实例包括RTX GPU，Titan V和V100。

具体算力可以查看https://blog.youkuaiyun.com/iefenghao/article/details/97956440。（穷人gpu没有资格加速，哭）

#仅支持2.

最低0.47元/天解锁文章

博客等级

码龄10年

132
原创

226
点赞

918
收藏

154
粉丝

关注

私信

热门文章

分类专栏

tensorflow 4篇
NLP 1篇
软件环境安装 2篇
深度学习 8篇
部署
爬虫 1篇
darknet 1篇
ocr 1篇
机器学习 13篇
python 17篇
ubuntu 8篇
研电赛 4篇
医疗图像 6篇
pytorch 24篇
opencv 12篇
论文修改 3篇
incremental learning 6篇
keras 7篇
目标检测 40篇
算法 21篇
C++ 23篇
知识蒸馏 2篇
faster-rcnn 7篇
YOLOV3 5篇
每周论文阅读 3篇
图像处理 7篇

最新评论

pytorch: DiceLoss MulticlassDiceLoss
YorkCOSYAO: 如果loss依然为负数也没有关系，（我猜想大概率仍然是smooth取得不合理）。直接用负loss一样可以实现优化： class dice_coef(nn.Module): def __init__(self): super(dice_coef, self).__init__() def forward(self, y_true, y_pred, smooth=1e-7): y_true_f = y_true.flatten() y_pred_f = y_pred.flatten() intersection = torch.sum(y_true_f * y_pred_f) return (2. * intersection + smooth) / (torch.sum(y_true_f) + torch.sum(y_pred_f) + smooth) class dice_coef_multilabel(nn.Module): def __init__(self): super(dice_coef_multilabel, self).__init__() def forward(self, y_true, y_pred, numLabels=3): dice = 0 for index in range(3): dice -= dice_coef()(y_true[:, index], y_pred[:, index]) return dice
pytorch: DiceLoss MulticlassDiceLoss
YorkCOSYAO: 出现负值的原因是因为smooth，参考用户‘孙良怀’的评论：loss = 2 * (intersection.sum(1) + smooth) / (input_flat.sum(1) + target_flat.sum(1) + smooth) 我认为应该写作： loss = (2*intersection.sum(1) + smooth) / (input_flat.sum(1) + target_flat.sum(1) + smooth) 。smooth应该加在括号里面。不然分子加了两个smooth，分母只加了一个
pytorch 自己的图片数据处理成可以训练的图片类型
编程进阶0.1: from torch.utils.data import Dataset import numpy as np class Dataset(Dataset): def __init__(self, path_img, path_target, transforms=None): self.train = path_img self.targets = path_target self.transforms = transforms def __len__(self): return len(self.train) def __getitem__(self, idx): img = self.train[idx] target = self.targets[idx] if self.transforms: img = self.transforms(img) target = self.transforms(target) return img, target 可以说一下这段代码的原理吗？
关于pytorch 模型复制的一些问题
cyh19971997: 在循环里deepcopy造成显存飙升最后CUDA 显存炸了。你遇见过吗
pytorch 从头开始faster-rcnn 最后：使用自己的数据集
晴明大大: 好久了，我也忘了

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。