深度学习loss出现NAN的原因分析：

最新推荐文章于 2025-11-30 22:10:34 发布

原创最新推荐文章于 2025-11-30 22:10:34 发布 · 5.9k 阅读

5 ·

CC 4.0 BY-SA版权

本文探讨了在使用GAN网络进行推荐系统开发时遇到的NAN问题，并提供了详细的解决方案，包括对预测值的处理、避免空feed_dict、梯度爆炸的应对策略、数据清洗及gradient clipping的应用。

最近写model出现了一些NAN的问题，总结一下

1.我用的GAN网络做推荐，G model 中的pred需要用

self.prob = tf.clip_by_value(tf.nn.sigmoid(self.score), 1e-5, 1)处理一下，不然score可能为0，在cross_entropy与policy gradient中log(score)->log(0)->无穷大，导致NAN

2.网络的feed_dict如果一不小心为空，也会导致NAN

3.梯度爆炸问题：（1）减小lr （2）减小batch_size （3）数据归一化（加入normalization，例如BN、L2 norm等）（4）加入gradient clipping

4.还有一种原因：比秒脏数据导致 log(score)->log(0)->无穷大

5.加入gradient clipping

6.加入gradient clipping；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ruiding.neu

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【深度学习】Loss为Nan的可能原因

passer__jw767的博客

06-11

2704

Loss为Nan的原因分析与解决

训练过程中Loss突然变为NaN的可能原因与解决

andyL_05的博客

07-27

3万+

训练过程中Loss突然变为NaN的可能原因与解决 深度学习训练过程中，我们依赖模型当前参数训练得到的loss，根据所选择的优化策略，如Adam、SGD等得到参数步进调整值，对参数进行不断的调整，直到模型达到我们的预期。但在实际训练过程中，有时候会发现loss变为NaN或Inf的情况，导致训练无法正常进行。出现这种情况的原因主要有以下几点： 1. 梯度爆炸 2. 出现除零、对数函数自变量为负值等数学问题 3. 出现坏样本 1. 梯度爆炸训练过程中由于学习率等超参数设置的不合理，导致优化过程中没有减小los

参与评论您还未登录，请先登录后发表或查看评论

深度学习训练中 Loss 为 Nan 的 10 种原因及解决方案

热门推荐

lrt366的博客

07-28

5万+

转自：https://oldpan.me/archives/careful-train-loss-nan-inf 前言训练或者预测过程中经常会遇到训练损失值或者验证损失值不正常、无穷大、或者直接nan的情况：遇到这样的现象，通常有以下几个原因导致：梯度爆炸造成Loss爆炸原因很简单，学习率较高的情况下，直接影响到每次更新值的程度比较大，走的步伐因此也会大起来。如下图，过大的学...

解决模型训练过程中loss出现Nan值的情况

weixin_43900395的博客

02-24

806

训练过程中的 MulBackward0 出现了问题，这表明在计算梯度时，出现了数值不稳定，具体是在执行 torch.exp(logits) 时。这种问题通常出现在计算中涉及指数运算（exp）时，如果输入的数值非常大，就可能导致溢出或产生 NaN。可以定位到Ls = criterion_simclr(features_prob)，即features_prob的值很大，也就是我让模型返回的feature很大，所以我在模型输出之前加入了特征正则化，问题解决。放在训练最开始的部分，例如训练循环的外部即可。

机器学习报错「Loss is NaN」：梯度爆炸与数据归一化的参数调优技巧

shejizuopin的博客

05-12

962

梯度爆炸控制优先使用梯度裁剪与He初始化。复杂任务中，Adam优化器比SGD更稳定。数据归一化策略图像数据优先使用Z-score归一化+BatchNorm。表格数据根据分布选择Min-Max或Z-score。调试工具链使用定位NaN源头。通过TensorBoard可视化梯度范数与权重分布。通过系统性地结合梯度控制与数据归一化，可有效解决问题。实际项目中需根据数据特性与模型结构灵活调整参数，并通过A/B测试验证优化效果。

精选资源

深度学习中Loss突然变为0的解决方法

01-07

在深度学习中，在网络模型，优化器，损失函数均正确的情况下，可能在训练过程中会发生loss为nan的情况，这种情况下可能的一种原因是输入数据存在nan的情况，如果在数据量很多的情况下，可以通过以下方法来修正 ...

【大模型面试每日一题】Day 6：分布式训练中 loss 出现 NaN，可能原因及排查方法？

2302_79932616的博客

05-02

1461

✅一句话总结：Loss 出现 NaN 是训练过程中常见但棘手的问题，需从梯度、参数、数据、算子、分布式等多个角度系统性排查。建议在训练初期就集成自动检测机制，结合日志、可视化和人工验证手段构建完整的防护体系。

模型训练中出现loss为NaN怎么办？

Thomas_Cai的记忆殿堂

07-18

6210

模型训练中出现loss为NaN原因

深度学习训练模型损失Loss为NaN或者无穷大（INF）原因及解决办法

qq_47898999的博客

01-02

5051

Pytorch训练模型损失Loss为NaN或者无穷大（INF）原因及解决办法

深度学习网络训练，Loss出现Nan的解决办法

不要给自己设限，尝试更多可能（思所向皆可往）

04-23

5786

模型的训练不是单纯的调参，重要的是能针对出现的各种问题提出正确的解决方案。本文就训练网络loss出现Nan的原因做了具体分析，并给出了详细的解决方案，希望对大家训练模型有所帮助。一、原因如果在迭代的100轮数以内，出现NaN，一般情况下的原因是你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。

在训模型的时候如果loss报Nan了，可能是因为什么？

Angelina_Jolie的博客

07-04

4581

如果模型参数初始化的值过大或过小，可能会导致训练过程中的激活值或梯度过大或过小，从而引发NaN值。：学习率过高可能会使模型在训练过程中跳过最优解，导致损失函数的值快速增加到无穷大，然后变成NaN。：一些操作可能会在某些输入值上产生数值不稳定，例如，对一个非正数取对数，或者除以一个接近于零的数。：如果输入数据包含NaN值或者无穷大的值，或者标签数据有问题，可能会导致NaN损失。除了这些，如果问题仍然存在，建议使用调试工具或者逐步运行代码，查看哪一步开始产生NaN值，这将有助于识别和解决问题。

损失函数出现nan的原因分析及对策

weixin_43080939的博客

05-09

7864

神经网络训练时出现NAN的原因及解决办法

loss值为NaN（Not a Number）

weixin_44245188的博客

06-25

1319

在PyTorch训练深度学习模型时，有时会遇到loss值为NaN（Not a Number）的情况。这通常是由于某些计算过程中出现了无穷大或非数字值导致的。

[深度学习] 梯度消失与梯度爆炸、Loss为Nan的原因

北望花村

08-04

2万+

现象如何确定是否出现梯度爆炸？在训练过程中出现梯度爆炸会伴随一些细微的信号，如：（1）模型无法从训练数据中获得更新；（2）模型不稳定，导致更新过程中的损失出现显著变化；（3）训练过程中，模型的损失变为Nan。梯度消失与梯度爆炸原因首先，来看神经网络更新梯度的原理，即反向传播算法。详细推导参考：反向传播算法通过反向传播算法更新梯度的公式可以看到，影响梯度...

matlab损失函数出现nan,警惕！损失Loss为Nan或者超级大的原因

weixin_39954487的博客

03-18

2791

前言训练或者预测过程中经常会遇到训练损失值或者验证损失值不正常、无穷大、或者直接nan的情况：遇到这样的现象，通常有以下几个原因导致：梯度爆炸造成Loss爆炸原因很简单，学习率较高的情况下，直接影响到每次更新值的程度比较大，走的步伐因此也会大起来。如下图，过大的学习率会导致无法顺利地到达最低点，稍有不慎就会跳出可控制区域，此时我们将要面对的就是损失成倍增大(跨量级)。另外，这种情况很容易在网络层数...

损失函数lossw为nan的问题

qq_42178122的博客

04-12

4437

nan的字面意思：Not a Number的缩写一开始，我设置每训练10张图片，就输出loss，除了第一个输出为正常值，其余的都为Nan。然后我将训练每张图片的loss都输出，发现数值会慢慢变得很大。我的解决方法是：将学习率调小，loss的输出总算不为Nan ...

深度学习训练中Loss为NaN的原因与解决方案

从标题“深度学习Loss为NaN原因及解决[项目源码]”可以看出，本文聚焦于系统性地分析和解决这一问题，并提供了实际可运行的项目源码作为辅助工具，帮助开发者在真实场景中定位并修复相关故障。首先，学习率设置过...