传统RNN为什么会发生梯度弥散和爆炸？LSTM为什么可以避免它？

梯度弥散问题解析

最新推荐文章于 2025-07-23 17:07:27 发布

原创最新推荐文章于 2025-07-23 17:07:27 发布 · 7.8k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#梯度弥散 #RNN #LSTM

本文探讨了神经网络中梯度弥散的原因及其对训练的影响，并介绍了几种缓解该问题的方法，包括ReLU激活函数、批量归一化（BN）以及长短期记忆网络（LSTM）的独特机制。

产生原因

因为神经网络用到的sigmoid的特点，它会将+∞～-∞之间的输入压缩到0～1之间。当input的值更新时，output会有很小的更新。

又因为上一层的输出将作为后一层的输入，而输出经过sigmoid后更新速率会逐步衰减，直到输出层只会有微乎其微的更新。

从数学的角度出发。知sigmoid导数在0的位置取最大值1/4。当我们使用均值为0，方差为1的高斯分布初始化参数w，有|w|<1.

随网络层数加深，w的变化幅度会呈1/4的指数衰减，使得最后学不到东西，造成梯度弥散。

同样，当|w|>1,w变化幅度会指数递增，最后造成梯度爆炸。

解决办法

1.使用relu函数：

这个比sigmoid要好一些，但是有时还是会产生梯度消失

2.加入BN（Batch Normalization）层

BN层作用：

（1）加速收敛

（2）控制过拟合，可以少用或不用Dropout和正则

（3）降低网络对初始化权重不敏感

（4）允许使用较大的学习率

为什么LSTM可以解决梯度弥散？

LSTM相对普通RNN多了加和，也就是多了三个门（输入门，输出门，遗忘门）为避免梯度消散提供了可能。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

benjamin_sunny_li

关注关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

如何解决RNN梯度爆炸和弥散的问题？

优快云精品推荐

08-09

516

梯度爆炸问题发生在反向传播时，当在时间步骤上反复应用权重矩阵的导数时，梯度会指数级增长，导致数值过大，从而使网络参数迅速调整，训练不稳定甚至无法收敛。梯度弥散问题与梯度爆炸相反，梯度在反向传播时会指数级减小，导致梯度逐渐变得非常小，使得网络参数无法得到有效更新，难以学习长时序的依赖关系。需要注意的是，不同的方法可以结合使用，具体的选择和调整要根据实际问题和网络结构进行，以获得稳定和高效的训练过程。使用合适的权重初始化方法，如Xavier初始化，可以控制权重的范围，避免梯度爆炸和弥散问题。

LSTM如何解决梯度消失或爆炸的？

djph26741的博客

03-05

1536

from:https://zhuanlan.zhihu.com/p/44163528 哪些问题？梯度消失会导致我们的神经网络中前面层的网络权重无法得到更新，也就停止了学习。梯度爆炸会使得学习不稳定，参数变化太大导致无法获取最优参数。在深度多层感知机网络中，梯度爆炸会导致网络不稳定，最好的结果是无法从训练数据中学习，最坏的结果是由于权重值为NaN而无法更新权重。在循...

3 条评论您还未登录，请先登录后发表或查看评论

真正讲明白为什么LSTM可以防止梯度消失或爆炸

z2876563的博客

02-07

3053

参考https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html#fn:3 要讲明白为什么LSTM可以防止梯度消失，就是要讲明白、这两个求导的连乘为什么不是无穷大或0. 百度上搜索这个问题的解答基本上都模糊不清或者是错误的，而且关于的求导公式基本是错的，太误人子弟了！以下摘两个我看的阅读量比较高的错误博客。错误示范1：https://zhuanlan.zhihu.com/p/28749444 这个博客的求导.

理解RNN梯度消失和弥散以及LSTM为什么能解决

最新发布

weixin_48372662的博客

07-23

1210

本文系统介绍了循环神经网络(RNN)的基本原理与应用。首先对比CNN在处理时序数据时的局限性，引出RNN通过循环连接和隐藏状态实现"记忆"功能的优势。详细阐述了RNN的前向传播和反向传播机制，以及多对多、多对一、一对多三种结构类型在不同任务中的应用。分析了RNN相比全连接网络在参数共享和变长序列处理上的优势，同时指出其存在的长期依赖问题。文章最后总结了RNN作为序列建模基础的重要地位，以及其对LSTM等后续模型的启发作用。

RNN梯度的推导及为什么RNN有梯度爆炸问题

qq_38721353的博客

09-11

487

RNN梯度的推导及为什么RNN有梯度爆炸问题欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博...

为什么RNN会产生梯度爆炸与消失，LSTM为什么可以解决这一问题

qq_34551057的博客

04-12

3268

为什么RNN会产生梯度爆炸与消失，LSTM为什么可以解决这一问题原文链接–知乎经典的RNN结构如下图所示：假设我们的时间序列只有三段， S_{0} 为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：假设在t=3时刻，损失函数为则对于一次训练任务的损失函数为，即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对 W_{x} 、 W_{...

为什么LSTM能够缓解梯度消失梯度爆炸

云计算、数据库、大数据、容器、微服务、深度学习、NLP、Python

05-28

2018

ft —遗忘门层，it — gt — 输入门层，ct ----细胞状态更新，ot 输出门*， ht 当前时刻的隐层输出根据BPTT推导得：从上述公司可知三个门的激活函数是sigmoid，也就是输出要么接近于0 ，要么接近于1。这就使得当门为1时，梯度能够很好的在LSTM中传递，很大程度上减轻了梯度消失发生的概率，当门为0时，说明上一时刻的信息对当前时刻没有影响，我们也就没有必要传递梯度回去来更新参数了。所以，这就是为什么通过门机制就能够缓解梯度的原因 ...

LSTM如何解决RNN带来的梯度消失问题

谓之小一

04-25

3249

本篇文章参考于 RNN梯度消失和爆炸的原因、Towser关于LSTM如何来避免梯度弥散和梯度爆炸？的问题解答、Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass。看本篇文章之前，建议自行学习RNN和LSTM的前向和反向传播过程，学习教程可参考刘建平老师博客循环神经网络(RNN)模型与前向反向传...

RNN,LSTM和GPU

lichji2016的博客

09-19

719

文章目录前言一、RNN网络二、LSTM网络2.1.引入库2.2.读入数据三、GPU网络四、三者的异同及应用前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、RNN网络二、LSTM网络 2.1.引入库 2.2.读入数据三、GPU网络提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处..

RNN梯度消失和爆炸的原因

two_apples的博客

03-27

2180

一个经典的RNN结构如下图所示：假设我们的时间序列只有三段， S0S_0S0为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下:S1=WxX1+WsS0+b1O1=WoS1+b2S_{1}=W_{x} X_{1}+W_{s} S_{0}+b_{1} O_{1}=W_{o} S_{1}+b_{2}S1=WxX1+WsS0+b1O1=WoS1+b2S2=Wx...

RNN梯度消失与梯度爆炸的原因

zlrai5895的博客

03-29

2120

• 关于RNN结构 •关于RNN前向传播 •关于RNN反向传播 • 解决方法 1. 关于RNN结构循环神经网络RNN（Recurrent Neural Network）是用于处理序列数据的一种神经网络，已经在自然语言处理中被广泛应用。下图为经典RNN结构： RNN结构 2. 关于RNN前向传播 RNN前向传导公式：其中: St : t 时刻...

RNN梯度爆炸原因和LSTM解决梯度消失解释

chao_1083934282的博客

04-11

1万+

RNN梯度爆炸原因：经典的RNN结构如下图所示：假设我们的时间序列只有三段，为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：假设在t=3时刻，损失函数为。则对于一次训练任务的损失函数为，即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对、、以及求偏导，并不断调整它们以使L尽可能达到最小的过...

关于LSTM解决梯度弥散爆炸问题解析

coolerzZ的博客

06-29

1077

转自知乎@Towser 原链接 “LSTM 能解决梯度消失/梯度爆炸”是对 LSTM 的经典误解。这里我先给出几个粗线条的结论，详细的回答以后有时间了再扩展： 1、首先需要明确的是，RNN 中的梯度消失/梯度爆炸和普通的 MLP 或者深层 CNN 中梯度消失/梯度爆炸的含义不一样。MLP/CNN 中不同的层有不同的参数，各是各的梯度；而 RNN 中同样的权重在各个时间步共享，最终的梯度 g = 各个时间步的梯度 g_t 的和。 2、由 1 中所述的原因，RNN 中总的梯度是不会消失的。即便梯度.

理论推导RNN梯度消失和梯度爆炸的原因

Stoneplay

11-28

2433

RNN梯度消失和梯度爆炸的原因 RNN的提出是为了解决网络无法利用历史信息的问题，但由于RNN具有梯度消失和梯度爆炸的问题，导致RNN不能存储长期记忆。网络结构首先来看RNN的结构，如下图1所示：上图的结构很好理解，xtx_{t}xt为网络输入，AAA为隐藏层，hth_{t}ht为网络输出。既然我们想利用之前的历史信息，那我们就将网络在上一时刻的输出保存下来，作为当前时刻的...

RNN中的梯度消失/爆炸原因

Elaine_DWL的博客

07-27

551

RNN中的梯度消失/爆炸原因梯度消失/梯度爆炸是深度学习中老生常谈的话题，这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解。首先，上图是RNN的网络结构图，(x1,x2,x3,…,)(x_1, x_2, x_3, …, )(x1,x2,x3,…,)是输入的序列，XtX_tXt表示时间步为ttt时的输入向量。假设我们总共有kkk个时间步，用第kkk个时间步的输出...

#从根本上分析# RNN网络梯度消失的原因

lch551218的博客

03-06

1776

和CNN等深度神经网络梯度消失的原因不同，RNN中所谓的梯度消失并不是真正意义上的梯度消失，准确的说应该是梯度消散 RNN 中同样的优化参数在各个时刻共享，最终的梯度 g = 各个时间步的梯度 g_t 的和；较远时刻的输出对相比于相邻时刻的输出，梯度的计算需要更多次求导运算，这就导致远距离的梯度更容易消失或爆炸，换一个角度来说，RNN中的总梯度不会消失，而是远距离输出对应的梯度更容易消失，从而导致模型难以学到远距离的依赖关系。关于LSTM介绍请参考为篇文章->#通俗理解# LSTM网络 ...

RNN的梯度消失和梯度爆炸

weixin_42676396的博客

08-02

2881

梯度消失和梯度爆炸本质是同一种情况。梯度消失经常出现的原因一是使用深层网络；二是采用不合适的损失函数，如Sigmoid。梯度爆炸一般出现的场景一是深层网络；二是权值初始化太大。深层网络由许多非线性层堆叠而来，每一层网络激活后的输出为f~i~(x)，其中i为第i层，x是第i层的输入，即第i-1层的输出，f是激活函数，整个深层网络可视为一个复合的非线性多元函数。...

RNN如何避免梯度消失/爆炸问题？

07-15

循环神经网络（RNN）中的梯度消失/爆炸问题是由于反向传播过程中链式法则导致的，当网络深度增加时，激活函数的导数可能非常小（如sigmoid），使得浅层单元的权重更新极其微弱（梯度消失），而如果导数很大（如ReLU...