pytorch loss 出现nan，原因之一，计算图中存在torch.sqrt或者 **0.5，以及如何解决

Jie Ou

于 2019-11-11 15:08:14 发布

阅读量8.6k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：机器学习深度学习 pytorch 文章标签： pytorch loss nan sqrt

本文链接：https://blog.youkuaiyun.com/github_36923418/article/details/103010097

深度学习同时被 3 个专栏收录

48 篇文章

订阅专栏

机器学习

45 篇文章

订阅专栏

pytorch

18 篇文章

订阅专栏

本文探讨了在PyTorch中使用sqrt函数可能导致的梯度为inf问题，尤其是在loss函数计算中。通过两个解决方案避免了该问题：一是避免直接开方运算；二是向平方和中添加极小值防止分母为零。提供了测试代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天写一个loss函数

dist=torch.sqrt(x*x+y*y)
loss=soomthL1loss(dist,gt_dist)

我随便写的几句示意代码，这样会导致在第一个iteration之后出现nan，第一次iteration之内，还是可以看到loss不为nan的。

解决办法：

1、不开方，因为开方的求导会出现在分母上，因此需要避免分母为0！

2、torch.sqrt(x*x+0.000001)增加一个很小的 “一瞥西漏”

给大家个测试代码：

import torch
a = torch.zeros(1,requireds_grad = True)
b = torch.sqrt(a)
b.backward()
print(a.grad)
#得到tensor([inf]),看到inf就知道，一般来说没办法传递了，为什么是一般来说，因为用过darknet的yolo的话，里面出现inf还是可以训练的（可能我记错了）


#修改下：
import torch
a = torch.zeros(1,requireds_grad = True)
b = torch.sqrt(a+0.001)
b.backward()
print(a.grad)
#tensor([15.814])