pytorch1.1 半精度训练 Adam RMSprop 优化器 Nan 问题

最新推荐文章于 2024-01-14 23:24:22 发布

有毒的大妖怪

最新推荐文章于 2024-01-14 23:24:22 发布

阅读量3.7k

点赞数 3

分类专栏：深度学习 pytorch 文章标签：神经网络 pytorch

原文链接：https://blog.youkuaiyun.com/one_six_mix/article/details/86367086

版权

深度学习同时被 2 个专栏收录

4 篇文章

订阅专栏

pytorch

2 篇文章

订阅专栏

本文分享在PyTorch中进行半精度浮点数训练的经验，针对出现NaN值的问题，提供了解决方案，包括调整网络输入范围、优化器参数设置、降低学习率等策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章转载于https://blog.youkuaiyun.com/one_six_mix/article/details/86367086
因为遇到了同样的问题，所以记录一下
在缩小模型，采用半精度模型，参数，输入数据时，发现adam算法有问题，而sgd没有问题。采用方法如下链接：
这个老哥有相同问题https://www.cnblogs.com/yanxingang/p/10148712.html

以下为转载：

2019/5/5更新
pytorch 1.1 版本相比1.0版本，对 half 训练优化了许多，nan发生的情况少了很多，现在应该可以日常使用 half 训练了
使用Adam优化器时，加入参数eps=1e-4

optimizer1 = optim.Adam(model.parameters(), lr=1e-3, eps=1e-4)

pytorch 半精度浮点数表示的范围比单精度的少很多

1.使网络输入值域缩放到 [-1, 1] 或 [0, 1]
2.定义Adam优化器时，加入参数eps=1e-3
3.定义RMSprop优化器时，加入参数eps=1e-2
4.降低学习率

optimizer1 = optim.Adam(model.parameters(), lr=0.001, eps=1e-3)
optimizer2 = optim.RMSprop(model.parameters(), lr=0.001, eps=1e-2)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

有毒的大妖怪

关注关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

优化器 (Optimizer)

欢迎来到我的优快云空间！这里聚焦AI大模型应用实战，分享前沿技术、实战案例与开发经验。

11-24

850

优化器 (Optimizer) 1. 背景介绍 优化器(Optimizer)是深度学习中不可或缺的核心组件之一。它的主要作用是通过对模型参数的梯度更新，不断调整模型，最小化损失函数，从而提高模型性能。优化器的好坏直接决定了深度学习的训练效果，是实现深度学习算法的基础。

pytorch半精度训练时出现nan的情况

lppfwl的博客

11-04

2953

最近在训练bert模型的时候，因为gpu内存不足，就想着用半精度训练的方式来降低内存占用，加速训练，但是训练几百个batch之后，就出现模型输出为nan的情况，但是之前用单精度float32训练的时候就没出现过这个问题。一点点去查看之后，发现是在某个batch更新之后，模型embedding层的权重参数变成了nan，在网上查了一些资料之后终于解决这个问题了，这里记录一下：１.由于我的优化器使用的是adam算法，在用半精度训练的时候需要torch.optim.Adam中加入参数eps=1e-3，否则就有可

参与评论您还未登录，请先登录后发表或查看评论

记录PyTorch中半精度amp训练出现Nan的排查过程

xu.hyj

12-06

5033

网络的教程来看，在半精度amp训练出现nan问题，无非就是这几种：但是总结起来就三种：先说结论，我使用amp半精度训练，即中间会参杂float16数据类型，加快训练过程。但是本文出现Nan就是因为float16，因为float16支持的最大值在65504，而我的模型中涉及一个矩阵乘法（其实就是transformer中的q@k运算）。其中，a∈[-38,40]，b∈[-39,40]，而矩阵乘法a@b=c，c∈[-61408,inf]。因为a和b的矩阵乘法运算后最大值超过了float16最大表示，造成出现inf

pytorch半精度half计算loss得到nan的可能解决方法

york1996的博客

10-31

2164

计算loss的时候，临时把half类型的转成float类型。 half是指float16类型的，float代表float32。我也不知道为什么half类型的输出送到损失函数中不能得到正确的损失，如果您知道为什么，可以在下方留言。 ...

8.13神经网络学习笔记点

weixin_44404354的博客

08-13

359

8.13神经网络学习笔记点（1）model.compile(optimizer=Adam(lr=1e-4), loss=‘categorical_crossentropy’, metrics=[‘accuracy’])利用这个去定义模型的优化器，损失函数以及模型评价标准。 optimizer作为优化器是计算每个参数的自适应学习率的方法。除了像 Adadelta 和 RMSprop 一样存储了过去梯度的平方 vt 的指数衰减平均值，也像 momentum 一样保持了过去梯度 mt 的指数衰减平均值：

Pytorch~半精度amp训练

热门推荐

Ibelievesunshine的博客

08-15

15万+

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)[source] 实现Adam算法。它在Adam: A Method for Stochastic Optimization中被提出。参数： params (iterable) – 待优化参数的iterable或者...

Pytorch训练过程出现nan

我的博客有点东西

08-21

2万+

今天使用shuffleNetV2+，使用自己的数据集，遇到了loss是nan的情况，而且top1精确率出现断崖式上升，这显示是不正常的。在网上查了下解决方案。我的问题是出在学习率上了。我自己做的样本数据集比较小，就三类，每类大概三百多张，初始学习率是0.5。后来设置为0.1就解决了。按照解决方案上写的。出现nan的情况还有以下几种：学习率太大，但是样本数据集又很小。...

pytorch训练过程中loss出现NaN的原因及可采取的方法

公众号/知乎: AI算法札记，欢迎关注交流

06-22

6万+

在pytorch训练过程中出现loss=nan的情况 1.学习率太高。 2.loss函数 3.对于回归问题，可能出现了除0 的计算，加一个很小的余项可能可以解决 4.数据本身，是否存在Nan，可以用numpy.any(numpy.isnan(x))检查一下input和target 5.target本身应该是能够被loss函数计算的，比如sigmoid激活函数的target应该大于0，.........

Pythorch模型在第一轮训练后返回之 nan

qq_43586192的博客

03-30

718

尝试解决方案（未解决）：担心发生梯度爆炸造成的，将学习率调为了0，但在第二轮任然变成了nan 最终解决方案（解决）原因：使用了半精度进行更新或者参与，导致的方法：将其中参与的half替换成float即可解决 loss.backward() model.float() # add this here optimizer.step() ...

模型调参常见问题及Aadm优化器调参记录

sereasuesue的博客

11-24

1万+

优化器参数 torch.optim.Adam(model.parameters(), lr=lr ,eps=args.epsilon) epsilon从0.1到1e-06,测试auc从0.6到0.9太可怕了， torch.optim.Adam(model.parameters(), lr=lr,weight_decay=0.0005) 加入weight_decay又到0.68附近去掉weight_decay到0.9,0.9还往上升肯定有问题 ...

Deep Learning 之训练过程中出现NaN问题

BVL的博客

07-25

1万+

相信很多人都遇到过训练一个deep model的过程中，loss突然变成了NaN。在这里对这个问题做一个总结。一般来说，出现NaN有以下几种情况： 1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。 2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN

恕我直言，你们的模型训练都还不够快

算法码上来

06-26

382

❤️点击上方，选择星标或置顶，每天给你送上干货❤️周末在家没事干，也没人约了打游戏，于是打开了gayhub闲逛，哦不，是github。然后发现了一个挺有意思的项目:「也就是将你模型中的参数...

半精度浮点数（fp16，Half-precision floating-point）

mc18740458059的博客

09-05

6万+

今天看NVIDIA的帕斯卡架构介绍时，看到了fp16浮点数格式，以前没见过，想弄清楚他的格式和表示范围，几经查找，终于搞懂了。主要参考：fp16-wiki 如图，一个fp16数据占据两个字节，其中1位符号位，5位指数位，10位有效精度。符号位：0：代表正数； 1：代表负数。指数位：与15的偏差。 max_e