【问题记录】PyTorch NaN RuntimeError: Function ‘MulBackward0‘ returned nan values in its 0th output. 深度学习

原创

已于 2024-09-23 22:24:05 修改 · 6.1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #python

于 2022-10-17 02:54:24 首次发布

博客介绍了在PyTorch中遇到RuntimeError: Function ‘MulBackward0’ 和 'ExpBackward0'返回nan值的问题，以及如何定位和解决这类bug。通过检查Loss函数，置零Loss并分析变量，发现问题是由于特定条件下的梯度导致的NaN。总结指出，NaN问题通常与函数的定义域有关，如log(x)、1/x、x^41等，需要关注导数的定义域。

报错：

RuntimeError: Function ‘MulBackward0’ returned nan values in its 0th output.
RuntimeError: Function ‘ExpBackward0’ returned nan values in its 0th output.
以及其他的nan错误

以此代码为例:

out  = model(input)
pred = out ** (1/4)
loss = 2*nn.MSELoss()(pred ,y)+0.1*nn.L1Loss()(pred ,y)

loss.backward()
optimizer.step()

怎么定位bug位置？

在loss.backward()后加入如下代码

loss.backward()

for name, param in model.named_parameters():
    if param.grad is not None and torch.isnan(param.grad).any():
        print("nan gradient found")
        print("name:",name)
        print("param:",param.grad)
        raise SystemExit

打印出反向传播的梯度为NaN的模块名称和参数.

1.找到与之相关的Loss函数,

分别令这些Loss为零

out

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不愿透露姓名的互联网用户雷傲天

关注关注

14
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Pytorch】反向传播为NaN报错的排查解决方法，RuntimeError: Function ‘BmmBackward0‘ returned nan values

qq_41682740的博客

08-12

1万+

【Pytorch】反向传播为NaN报错的排查解决方法，RuntimeError: Function 'BmmBackward0' returned nan values

深度学习八股文：混合精度训练过程出nan怎么办

m0_38086244的博客

11-24

2504

前向计算过程中没有nan，loss算完后，乘以scale后导致inf，这时候再往后反向传播出nan了，那在梯度更新的时候就会在梯度更新前进行数值检查，check finite and unscale过程会去检查权重的梯度发现有nan或者inf就会跳过更新，此时就可以调整scale的值，把scale降低，然后跑下一个step的前向。混合精度训练使用较低的数值精度（通常是半精度浮点数，例如FP16）来加速模型训练，但在一些情况下，可能会引发数值不稳定性的问题，导致 NaN 的出现。

1 条评论您还未登录，请先登录后发表或查看评论

问题记录 Pytorch Nan Runtime Error ：function‘MulBackward0’returned nan values in its oth output深度学习

meiyongyue的博客

03-29

1522

问题记录 Pytorch Nan Runtime Error ：function‘MulBackward0’returned nan values in its oth output深度学习

PyTorch RuntimeError: Function ‘CudnnBatchNormBackward0‘ returned nan values in its 0th output. 解决方法

duxiaodan1995的博客

02-12

5219

1. 查看输入是否含有nan或者全是0 2. 查看最后的loss是否是nan 3. 最难debug的一点是当learning rate过高的时候也会报题目中的错

Function ‘MseLossBackward0‘ returned nan values in its 0th output.

李歇特冯-兹拜因巴哈的博客

03-15

7843

这个比较奇怪的提示来自于Pytorch计算梯度的过程中产生了一个nan值。如果开启了： torch.autograd.set_detect_anomaly(True) 那么在loss.backward()的时候就会出现这个提示。为什么会出现这的情况呢？在pytorch的一个讨论中出现过这个问题，链接：https://discuss.pytorch.org/t/function-mselossbackward-returned-nan-values-in-its-0th-output/94875。讨

RuntimeError: Function ‘TanhBackward0‘ returned nan values in its 0th output.

Hashimoto_nanami的博客

01-22

295

1. 由于loss反向传播中出现Nan值，由于前向传播和反向传播中函数对应定义域的差异。这个可能要一一排除，可能是激活函数的设置，可能是输入没有归一化。--检查loss设置是否合理。

RuntimeError:Function MulBackward0 returned an invalid gradient at index 0

m0_46429066的博客

03-05

5204

问题：RuntimeError:Function MulBackward0 returned an invalid gradient at index 0 - expected type torch.FloatTensorbut got torch.cuda.FloatTensor 解决方法：关键是数据处理过程中格式发生了变化，而且找到开始变化的地方很麻烦，如果用print去看，很费时间，所以借用...

RuntimeError: Function 'NativeDropoutBackward0' returned nan values in its 0th output.

07-12

在使用 PyTorch 进行深度学习训练时，遇到 `RuntimeError: NativeDropoutBackward0 returned nan values in its 0th output` 错误通常表明反向传播过程中出现了 NaN 值。这种错误可能由多种原因引起，以下是常见的...

RuntimeError: Function 'ConvolutionBackward0' returned nan values in its 0th output.

03-14

嗯，用户遇到了一个RuntimeError，说ConvolutionBackward0返回了NaN值。这个问题在PyTorch中调试起来可能有点棘手，不过我可以一步步来思考可能的原因和解决办法。首先，NaN通常意味着数值不稳定，比如除以零、...

RuntimeError: Function 'AddBackward0' returned nan values in its 1th output.

03-13

好的，我现在需要解决PyTorch中AddBackward0函数返回NaN值的问题。首先，我得理解这个问题的背景。AddBackward0是PyTorch中的自动梯度计算部分，当执行加法操作时，反向传播会调用这个函数。如果它返回NaN，通常意味...

【报错】RuntimeError: Function ‘MmBackward0‘ returned nan values in its 0th output.

最新发布

小白的编程学习之旅

08-19

483

【报错】RuntimeError: Function ‘MmBackward0‘ returned nan values in its 0th output.

【解决报错】RuntimeError: Function ‘SqrtBackward0‘ returned nan values in its 0th output

一只菟葵的博客

03-20

1459

解决报错：RuntimeError: Function 'SqrtBackward0' returned nan values in its 0th output

python中backward函数_Pythorch:运行时错误：函数MulBackward0在索引0处返回了一个无效的渐变，预期类型为torch.cuda.FloatTensor但是得到了火炬。浮雕...

weixin_39537049的博客

02-09

870

我不明白这个错误在告诉我什么。在a different post中，同样的问题也得到了解决，但没有有效的解决办法。在Traceback (most recent call last):File "train.py", line 252, in main()File "train.py", line 231, in maintrain(net, training_dataset, targets, ...

Error:function ‘LogSoftmaxBackward‘ returned nan values in its 0th output.

qq_41694504的博客

01-11

7509

pytorch代码小坑

pytorch训练过程中出现NAN问题复盘

weixin_44398263的博客

01-05

5870

pytorch训练过程中出现NAN问题复盘

解决训练过程中前一次迭代的loss正常后一次迭代却出现NAN

shuaijieer的博客

09-16

1517

该怎么办？

自动混合精度的疑难杂症

qq_44698655的博客

11-06

901

网上大多数使用amp损失为nan一般是训练一段时间后突然出现nan，这是由于局部异常值导致，利用梯度裁剪和异常数据处理可以解决。我这里出现的nan不太一样，因为从训练开始就是损失值就为nan。但是建议不要这样做，这样虽然能有助于确保梯度更新不受少量异常值干扰从而使训练正常进行，但是这个处理方法可能掩盖一些问题。在我的设备下，使用fp32通常需要十万次以上迭代训练才能获得相对好的结果。这是一个尝试在一个类StyleGAN2模型上使用pytorch自带的混合精度失败案例，花了一整天时间，但目前依旧还没有解决。

【模型加速部署】—— Pytorch自动混合精度训练

qq_43456016的博客

08-08

5242

torch. amp为混合精度提供了方便的方法，其中一些操作使用torch.float32（浮点）数据类型，而其他操作使用精度较低的浮点数据类型（lower_precision_fp）：torch.float16(half)或torch.bfloat16。一些操作，如线性层和卷积，在lower_precision_fp中要快得多。其他操作，如缩减，通常需要float32的动态范围。混合精度试图将每个操作与其适当的数据类型相匹配。

深度学习 李沐报错

qq_36632604的博客

02-26

541

函数执行需要加main指定。softmax从0开始实现。函数执行需要加main指定。