关于梯度爆炸即loss=nan时，现象即解决方案

最新推荐文章于 2025-05-12 08:15:12 发布

原创最新推荐文章于 2025-05-12 08:15:12 发布 · 453 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #python #机器学习 #人工智能

本文深入探讨了深度学习训练过程中遇到的六种常见问题，并提供了实用的解决策略，包括调整学习率、更换损失函数、检查输入数据、优化池化层设置等，旨在帮助读者有效提升模型训练效果。

原因及初步解决详见此博文
https://blog.youkuaiyun.com/qq_25737169/article/details/78847691
此博文提到了6中方案。
此处从实践角度在推荐几种

减少学习率
更改损失函数。
检查输入
池化层中步长比卷积核的尺寸大

也是很好的解决方式。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_42985512

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

梯度爆炸解决办法

Jiashilin

06-29

1475

梯度爆炸的解决办法良好的参数初始化策略也能缓解梯度爆炸问题（权重正则化）https://blog.youkuaiyun.com/qq_35290785/article/details/93917405 使用线性整流激活函数，如 ReLU 等梯度截断（gradient clipping）——如果梯度超过某个阈值，就对其进行限制梯度截断策略（gradient clipping）梯度爆炸是深度学习...

pytorch 13 训练过程中出现loss为nan、inf（梯度爆炸、梯度消失）的分析及解决方案

a486259的博客

12-01

8934

从理论的角度上看，本质是梯度消失与梯度爆炸所导致的。梯度消失是指导数值特别小，导致其连乘项接近无穷小，可能是由输入数据的值域太小（导致权重W的导致特别小）或者是神经网络层输出数据落在在激活函数的饱和区（导致激活函数的导致特别小）;而梯度爆炸是指导数值特别大，导致其连乘项特别大，致使W在更新后超出了值域的表示范围。可能是输入数据没有进行归一化（数据量纲太大，致使W的梯度值极大），只要连乘项的导数一直大于1，就会使得靠近输入层的W更新幅度特别大。连乘项是指链式求导法则中每一层的导数，很明显梯度消失与梯度爆炸都受

参与评论您还未登录，请先登录后发表或查看评论

特征工程（3）特征增强：数据清洗——归一化/标准化

Campbell001的博客

04-10

2530

归一化由于机器学习模型收到scale的影响很大，如果有极端离群值可能对某些机器学习算法影响非常大受尺度影响的算法 KNN --因为依赖欧几里得距离 K均值聚类 – 和KNN一样逻辑回归、SVM、神经网络（如果使用梯度下降来学习权重）主成分分析–特征向量将偏向较大的列归一化将所有定量列转化为同一个静态范围内的值或者使用数据规则：所有列的均值和标准差必须相同标准化通过确...

论文阅读：2020 | On Feature Normalization and Data Augmentation

qq_17614495的博客

04-01

1683

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Introduction二、使用步骤1.引入库2.读入数据总结前言论文链接: https://arxiv.org/pdf/2002.11102.pdf. 现代神经网络训练在很大程度上依赖于数据增强来提高泛化能力。在标签保留增强方法取得初步成功后，最近出现了对标签扰动方法的兴趣激增，这种方法将训练样本中的特征和标签结合在一起，以平滑学习的决策面。在本文中，提出了一种新的增强方法，该方法利用提取的一阶和二阶矩，并通过特征归

机器学习——梯度消失，梯度爆炸

夏未眠秋风起的博客

04-21

617

原因梯度消失：1.深层网络，2.不合适的激活函数梯度爆炸：1.深层网络，2.权值初始化太大对于神经网络的更新，我们是采用反向传播（BP），用梯度下降策略对神经网络进行参数更新。根据链式法则求导，越靠近输入层的隐藏层导数乘的次数就越多。因此，如果导数大于1，那么层数越多，梯度以指数级增长，容易发生梯度爆炸；如果导数小于1，那么层数越多，梯度以指数级减小，容易发生梯度消失。不合适的...

数据归一化处理

laner__gg的博客

08-16

298

1、BN是应用最多的数据归一化处理：训练神经网络的过程中，由于神经网络的各层参数变化，神经网络的各层输入也会产生变化。（不同数据范围不同，服从不同的分布，导致学习率选择困难，增加了网络的训练难度）。网络训练过程中要求较低的学习率和详细的初始化参数，减慢了训练速度，而且训练模型具有饱和性和fei ...

机器学习报错「Loss is NaN」：梯度爆炸与数据归一化的参数调优技巧

shejizuopin的博客

05-12

938

梯度爆炸控制优先使用梯度裁剪与He初始化。复杂任务中，Adam优化器比SGD更稳定。数据归一化策略图像数据优先使用Z-score归一化+BatchNorm。表格数据根据分布选择Min-Max或Z-score。调试工具链使用定位NaN源头。通过TensorBoard可视化梯度范数与权重分布。通过系统性地结合梯度控制与数据归一化，可有效解决问题。实际项目中需根据数据特性与模型结构灵活调整参数，并通过A/B测试验证优化效果。

深度学习-梯度爆炸原因分析、调试记录与解决方案（loss突然变为nan）

我的博客

05-03

1765

loss突然变为nan，出现了梯度爆炸，进行原因分析、记录了调试的过程与最终解决的方案。

现在class_error 问题解决了。 loss=nan 问题没解决

最新发布

05-13

用户提到他们在训练DETR模型时遇到了loss=NaN的情况，之前我给出的解决方案包括检查无效边界框、调整学习率、损失函数稳定性、归一化层问题等。现在用户希望参考站内引用来进一步解决这个问题。提供的引用中提到了...

detr 出现loss = nan

05-13

之前我已经给出了关于class_error=100的详细分析和解决方案，现在需要针对loss为NaN的情况进行排查。首先，我需要回顾之前的回答，确保不重复，同时补充新的可能原因。用户提到参考了站内的引用，主要是DETR的官方...

损失爆炸梯度爆炸解决办法

mrweiqk的博客

03-25

354

检查代码有无问题，这是一个很重要原因。比如该是5的地方写成了6，或者变量导入错误等等。检查所有的权重有无经过正则化，比如有些权重值是7.5，-8.6等等这肯定引起loss变大。使用drop，batchnormal等等正则化数据。 ...

Data Augmentation

欢迎订阅 -- 小源笔迹

07-05

590

自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量。模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元。一般在训练过程中训练隐藏单元越多需要的数据越多，即任务复杂度与参数量与需要的数据量成正比。由于训练复杂任务时数据的缺乏，迁移学习往往被应用并取得较好的结果但是对于指定任务创建预训练模型依旧严峻。另一种解决数据不足问题的技术便是数据增强即通过在可用数据上转化合成新的数据。数据增强可用来解决训练数据的多样性和数据量的问题。数据增强技术依赖于数据的类型。对于常规的数字型数据，常见的技术包括SM

关于nan, 梯度爆炸，loss爆炸不完全总结笔记（自用）

芝麻挞

05-19

2892

1. 加自动监测函数找异常值 import torch # 正向传播时：开启自动求导的异常侦测 torch.autograd.set_detect_anomaly(True) # 反向传播时：在求导时开启侦测 with torch.autograd.detect_anomaly(): loss.backward() 2. 自定义的loss注意除法时分母不是0 注意分母加eps保证计算稳定性 3. log(0), sqrt(0) 会导致nan，0 * inf也会变成nan 判断nan不能用 == 或 i

模型训练中遇到的问题——梯度消失/爆炸(Loss为nan)

weixin_44441131的博客

05-16

9576

可能出现的原因 Learning_rate过大，导致梯度较大，导致梯度爆炸激活函数、损失函数选取不当，在这种情况很少出现当网络的层数比较多，模型的数值稳定性容易变差，容易产生梯度消失和梯度爆炸，这会导致我们的loss在训练时变为nan，也称之为数据溢出。采用stride大于kernel size的池化层解决方法（个人经验）首先不要先考虑激活函数，应该先考虑的是learning_rate，试着降低学习率，虽然优化器(Adam)推荐0.001，但并不适用全部网络，试着减少一个量级。如果发现减少

数据归一化(特征处理) 以及各种归一化(BN-LN-GN-IN)的实现

junqing_wu的博客

04-10

6065

概述归一化: 1. 把数据变成(0,1)或者（1,1）之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。 2. 把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。标准化：在机器学习中，我们可能要处理不同种类的资料，例如，音讯和图片上...

梯度消失和梯度爆炸

qq_23236081的博客

03-10

1137

可能原因：1、training sample中出现了脏数据，或输入数据未进行归一化2、学习速率过大，梯度值过大，产生梯度爆炸；3、在某些涉及指数计算，可能最后算得值为INF（无穷）（比如不做其他处理的softmax中分子分母需要计算exp（x），值过大，最后可能为INF/INF，得到NaN，此时你要确认你使用的softmax中在计算exp（x）做了相关处理（比如减去最大值等等））；4、不当的损失函数（尤其是自定义的损失函数时）；

【Pytorch梯度爆炸】梯度、loss在反向传播过程中变为nan解决方法

weixin_30793735的博客

04-02

8835

0. 遇到大坑笔者在最近的项目中用到了自定义loss函数，代码一切都准备就绪后，在训练时遇到了梯度爆炸的问题，每次训练几个step后，梯度/loss都会变为nan。一般情况下，梯度变为nan都是出现了log(0), x/0等情况，导致结果变为+inf，也就成了nan。 1. 问题分析笔者需要的loss函数如下： L=1N∑i=0N−1(xi−Γ(xi))2\mathscr{L}=\frac{1...

data augmentation

RUN

05-06

230

datagen = ImageDataGenerator( # 图像增强 featurewise_center=False, # set input mean to 0 over the dataset samplewise_center=False, # set each sample mean to 0 featurewise_std_normalization=...

训练梯度爆炸

jacke121的专栏

10-21

2543

梯度爆炸，loss急剧增长，原因：loss增长太快。 10.21 xy 的loss增长太快会导致。