tensorflow 训练网络loss突然出现nan的情况

最新推荐文章于 2024-10-08 17:20:26 发布

weixin_30367169

最新推荐文章于 2024-10-08 17:20:26 发布

阅读量265

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：http://www.cnblogs.com/mengxiangtiankongfenwailan/p/10844898.html

本文描述了在训练过程中遇到Softmax Loss突然变为NaN的问题，并通过验证发现是由于输出向量中某些值过于接近1导致交叉熵计算时出现0*log(0)，从而引发NaN。提出了两种解决方案：一是加入正则化损失，二是损失函数中添加一个极小的正值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、问题描述：开始训练一切都是那么的平静，很正常！

　　突然loss变为nan，瞬间懵逼！

2、在网上看了一些解答，可能是梯度爆炸，可能是有关于0的计算。然后我觉得可能是关于0的吧，然后进行了验证。

3、验证方法：因为我使用的是softmax loss，我直接打印每一步的输出向量中的最大值即:

print(np.max(y.eval({x:data})))

发现最大值接近1甚至有的就是1.0，可想而知，其他维度都接近0了，那么我们来看公式：

　　交叉熵loss: y_ * log(y)
　　当0*log(0) 的时候，则会出现nan。

原因如此解决办法应该很多吧！

我使用的加正则化损失，参考：https://www.jianshu.com/p/6ffd815e2d11

也可以在损失中加一个很小的正值

转载于:https://www.cnblogs.com/mengxiangtiankongfenwailan/p/10844898.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30367169

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Tensorflow训练mnist数据集损失函数loss出现Nan

weixin_44359289的博客

07-11

1039

今天试着用tensorflow2.0对mnist进行训练,损失函数时均方差函数,结果训练的时候很快的出现了loss为Nan的情况.这里记录一下,加深印象,同时也记录一下自己仍然还不明白的地方. 以下是我最后成功运行的代码,初学这些,代码凭感觉写的.不好的地方请指出,我正好学习一下. import tensorflow as tf import numpy as np from tensorflow import keras from tensorflow.keras import layers, optim

Tensorflow训练时某一个batch开始loss突然变为nan（tfdbg使用案例）

chutongz的博客

04-15

3204

关于Loss突然变成nan的问题，网上大多搜出来都是梯度爆炸导致的，这里我们还是要分情况讨论首先明确训练过程何时出现的nan （1）一开始迭代loss就是nan：这种情况就属于梯度爆炸引起的loss值始终为nan （2）到训练的中后期突然变成nan（训练能正常迭代n步）：这不属于梯度爆炸，往往和计算loss时引入的log函数有关，也是本文重点解决问题梯度爆炸引起的loss值为nan的解决方法 ...

参与评论您还未登录，请先登录后发表或查看评论

tensorflow 训练过程中loss为nan.

weixin_41396062的博客

10-30

3676

训练过程中出现loss为nan的情况在网上看了几篇博客后，可能有几种情况 1.出现为nan的情况可能是由于numpy数组中有nan元素出现，可能是由于数组中有零元素出现导致计算过程中出现数值过大问题 2.学习率设置得过大，可以调小学习率，看情况是否有改善调整学习率和batch大小后仍然出现nan的情况，所以猜测是数组中有零元素的出现，并且零元素在分母的位置上，使得数值过大无法显示，猜测是归...

Tensorflow 3. 训练过程，出现loss=NAN的问题？

andersonxie的博客

04-17

9682

① 问题可能原因： 1. 如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为学习率过高，需要降低学习率。我们可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1→10倍即可； 2. 如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）； 3. 可能用0作为了除...

【无标题】tensorflow中损失值出现Nan

m0_63042507的博客

03-10

630

在训练的过程中出现损失值为nan，可能是是由于学习率太大，需要减小学习率；或者是在训练一段时间后出现nan，这种情况可能是由于梯度爆炸导致的，可以对梯度进行裁剪，将梯度的最大值限定在某个常数。可以给对数运算的真数部分限定一个范围，否则会出现数值下溢的问题，可以使用tf.clip_by_value(input,min_value,max_value)函数来限定真数的下限。检查代码中是否存在取对数运算，因为对数的真数部分不能为0，有0在取对数会报错。在训练的过程中出现预测值为nan，可能是数据异常。

tensorflow训练神经网络时出现loss一直为nan的情况

weixin_43932042的博客

08-12

3917

tensorflow训练时出现loss一直为nan的问题

tensorflow训练中出现nan问题的解决

09-20

在深度学习过程中，特别是在使用TensorFlow框架训练神经网络模型时，可能会遇到训练损失(loss)突然变为`nan`（非数字）的问题。这通常意味着出现了数值溢出或分母为零等计算异常。解决这个问题需要从多个角度进行...

神经网络训练过程中出现loss为nan，神经元坏死

joker_xiansen的博客

09-07

6883

最近在手撸Tensorflow2版本的Faster RCNN模型，稍后会进行整理。但在准备好了模型和训练数据之后的训练环节中出现了大岔子，即训练过程中loss变为nan。nan表示not a number类型，任意有关nan的运算结果都将得到nan。这可真是一颗老鼠屎坏了一锅粥，一但一个step中出现loss为nan，所有神经元的参数都将被更新为nan，之后的epochs和step中所有预测结果和模型参数都将为nan。为了弄清楚nan的原因，我检查了每个组件函数以及所用的训练数据是否有误...

python神经网络训练损失率nan_神经网络训练时出现nan错误

weixin_39946500的博客

12-11

1704

现在一直在用TensorFlow训练CNN和LSTM神经网络，但是训练期间遇到了好多坑，现就遇到的各种坑做一下总结1.问题一;训练CNN的时候出现nanCNN是我最开始接触的网络，我的研究课题就是利用CNN，LSTM等网络对人体动作做识别。动作数据来源于手机的加速度计，做动作的人在固定位置携带手机并做特定动作，实验人员接收手机的加速度计数值并打上特定的动作标签。在训练CNN网络时一共遇到两处坑，一...

训练神经网络出现nan

热门推荐

accumulate_zhang的博客

04-11

3万+

问题：在使用tensorflow训练网络的时候，发现每次一个batch训练时，它的loss都为nan,导致准确率都为0。nan是代表无穷大或者非数值，一般在一个数除以0时或者log(0)时会遇到无穷大，所以你就要想想是否你在计算损失函数的时候，你的网络输出为0，又计算log,从而导致出现nan。网上也有很多原因的解释，比如学习率过大，batch过大，或者本身数据就很脏等等原因，我尝试减小学习率，从...

tensorflow NAN常见原因和解决方法

苏冉旭的专栏

02-14

1万+

最近遇到NAN的问题，花了很久才真正解决。发现网上大部分解决方法都不对或者不彻底，因此单独总结一下。一、NAN原因所有NAN都是这个原因：正向计算时节点数值越界，或反向传播时gradient数值越界；无论正反向，数值越界基本只有两种操作会导致： a) 节点/W/gradient数值逐渐变大直至越界 b) 有除零操作，包括0/0。二、现象两者的现象可能一样，绝大多...

Tensorflow编程问题-Loss Nan

qq_40676033的博客

12-05

323

1、在分类问题中，我们经常使用到交叉熵损失函数，需要注意的是：由于交叉熵损失函数里有对数计算，因此对数的真数部分不能为0，所以我们在计算计算交叉熵时需要给这个真数部分限定一个范围，否则会出现数值下溢的问题，我们可以采取的办法是使用tf.clip_by_value(input,min_value,max_value)函数来限定真数的下限； 2、另一种情况是在训练开始时后出现损失函数值为nan，这种情况一般是由于学习率太大，我们需要减小学习率；或者是在训练一段时间后出现nan，这种情况可能是由于梯度爆炸导致的

Tensorflow中训练得到Nan错误的分析

yinxingtianxia的博客

09-28

6594

之前在TensorFlow中实现不同的神经网络，作为新手，发现经常会出现计算的loss中，出现Nan值的情况，总的来说，TensorFlow中出现Nan值的情况有两种，一种是在loss中计算后得到了Nan值，另一种是在更新网络权重等等数据的时候出现了Nan值，本文接下来，首先解决计算loss中得到Nan值的问题，随后介绍更新网络时，出现Nan值的情况。 Loss计算中出现Nan值在搜

Tensorflow训练网络出现了loss = NAN解决方案

123

10-19

1641

注：内容来源与网络最近用Tensorflow训练网络，在增加层数和节点之后，出现loss = NAN的情况，在网上搜寻了很多答案，最终解决了问题，在这里汇总一下。数据本身，是否存在Nan,可以用numpy.any(numpy.isnan(x))检查一下input和target 在训练的时候，整个网络随机初始化，很容易出现Nan，这时候需要把学习率调小，可以尝试0.1，0.01，0.001，...

tensorflow训练时，当出现损失值为nan时，如何暂停网络训练？

06-03

在 TensorFlow 中，可以通过使用 `tf.debugging.check_numerics()` 函数检查张量是否包含 NaN 或 Inf 值。如果损失值为 NaN，则可以使用 `tf.debugging.assert_all_finite()` 函数抛出异常，停止训练。具体实现方法如下： ```python import tensorflow as tf # 定义损失函数 loss_fn = ... # 定义优化器 optimizer = ... # 定义训练步骤 @tf.function def train_step(inputs, labels): with tf.GradientTape() as tape: predictions = model(inputs, training=True) loss = loss_fn(labels, predictions) gradients = tape.gradient(loss, model.trainable_variables) optimizer.apply_gradients(zip(gradients, model.trainable_variables)) return loss # 定义训练过程 def train(): for epoch in range(num_epochs): for step, (inputs, labels) in enumerate(train_dataset): loss = train_step(inputs, labels) # 检查损失值是否为NaN if tf.debugging.check_numerics(loss, 'Loss is NaN!'): # 抛出异常，停止训练 tf.debugging.assert_all_finite(loss, 'Loss is NaN!') return print('Epoch: {}, Step: {}, Loss: {}'.format(epoch, step, loss.numpy())) ``` 在训练过程中，如果损失值为 NaN，则会抛出异常并停止训练。