RNN梯度消失和爆炸的原因

最新推荐文章于 2024-11-03 19:12:44 发布

转载最新推荐文章于 2024-11-03 19:12:44 发布 · 2.2k 阅读

15 ·

CC 4.0 BY-SA版权

原文链接：https://zhuanlan.zhihu.com/p/28687529

深度学习与神经网络专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了RNN在反向传播过程中遇到的梯度消失和爆炸问题，通过数学推导详细解释了这些问题产生的根本原因，即tanh激活函数导数范围导致的累积效应。并初步介绍了LSTM如何解决这一难题。

一个经典的RNN结构如下图所示：
在这里插入图片描述假设我们的时间序列只有三段， $S_0$ 为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下: $S_{1}=W_{x} X_{1}+W_{s} S_{0}+b_{1} O_{1}=W_{o} S_{1}+b_{2}$ $S_{2}=W_{x} X_{2}+W_{s} S_{1}+b_{1} O_{2}=W_{o} S_{2}+b_{2}$ $S_{3}=W_{x} X_{3}+W_{s} S_{2}+b_{1} O_{3}=W_{o} S_{3}+b_{2}$ 假设在t=3时刻，损失函数为 $L3=12(Y3−O3)2L_{3}=\frac{1}{2}\left(Y_{3}-O_{3}\right)^{2}$ 。则对于一次训练任务的损失函数为 $L=∑t=0TLtL=\sum_{t=0}^{T} L_{t}$ 即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对 $W_x$ 、 $W_s$ 、 $W_o$ 以及 $b_1$ 、 $b_2$ 求偏导，并不断调整它们以使 $L$ 尽可能达到最小的过程。现在假设我们我们的时间序列只有三段， $t_1$ ， $t_2$ ， $t_3$ 。我们只对 $t_3$ 时刻的 $W_x$ 、 $W_s$ 、 $W_o$ 求偏导（其他时刻类似）： $∂L3∂W0=∂L3∂O3∂O3∂Wo\frac{\partial L_{3}}{\partial W_{0}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial W_{o}}$ $∂L3∂Wx=∂L3∂O3∂O3∂S3∂S3∂Wx+∂L3∂O3∂O3∂S3∂S3∂S2∂S2∂Wx+∂L3∂O3∂O3∂S3∂S3∂S2∂S2∂S1∂S1∂Wx\frac{\partial L_{3}}{\partial W_{x}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{x}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{x}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{x}}$ $∂L3∂Ws=∂L3∂O3∂O3∂S3∂S3∂Ws+∂L3∂O3∂O3∂S3∂S3∂S2∂S2∂Ws+∂L3∂O3∂O3∂S3∂S3∂S2∂S2∂S1∂S1∂Ws\frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{s}}$
可以看出对于 $W_o$ 求偏导并没有长期依赖，但是对于 $W_x$ 、 $W_s$ 求偏导，会随着时间序列产生长期依赖。因为 $S_t$ 随着时间序列向前传播，而 $S_t$ 又是 $W_x$ 、 $W_s$ 的函数。
根据上述求偏导的过程，我们可以得出任意时刻对 $W_x$ 、 $W_s$ 求偏导的公式： $∂Lt∂Wx=∑k=0t∂Lt∂Ot∂Ot∂St(∏j=k+1t∂Sj∂Sj−1)∂Sk∂Wx\frac{\partial L_{t}}{\partial W_{x}}=\sum_{k=0}^{t} \frac{\partial L_{t}}{\partial O_{t}} \frac{\partial O_{t}}{\partial S_{t}}\left(\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}\right) \frac{\partial S_{k}}{\partial W_{x}}$ 任意时刻对 $W_s$ 求偏导的公式同上。
如果再加上激活函数: $Sj=tanh⁡(WxXj+WsSj−1+b1)S_{j}=\tanh \left(W_{x} X_{j}+W_{s} S_{j-1}+b_{1}\right)$ 。其中 $tanh⁡′=[0,1]\tanh ^{\prime}=[0,1]$ $f(z)=tanh⁡(z)f(z)=\tanh (z)$ $f(z)′=1−(f(z))2f(z)^{\prime}=1-(f(z))^{2}$ 激活函数tanh和它的导数图像如下：
在这里插入图片描述由上图可以看出 $tanh⁡′≤1\tanh ^{\prime} \leq 1$ ，对于训练过程大部分情况下tanh的导数是小于1的，因为很少情况下会出现 $W_{x} X_{j}+W_{s} S_{j-1}+b_{1}=0$ ，如果 $W_s$ 也是一个大于0小于1的值，则当 $t$ 很大时 $∏j=k+1ttanh⁡′Ws\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s}$ 会趋于0，和 $0.01^{50}$ 趋近于0是一个概念，同理当 $W_s$ 很大时， $∏j=k+1ttanh⁡′Ws\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s}$ 会趋于无穷。这就是RNN中梯度消失和爆炸的原因。

至于怎么避免这种现象，让我在看看就是 $∂Lt∂Wx=∑k=0t∂Lt∂Ot∂Ot∂St(∏j=k+1t∂Sj∂Sj−1)∂Sk∂Wx\frac{\partial L_{t}}{\partial W_{x}}=\sum_{k=0}^{t} \frac{\partial L_{t}}{\partial O_{t}} \frac{\partial O_{t}}{\partial S_{t}}\left(\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}\right) \frac{\partial S_{k}}{\partial W_{x}}$ 梯度消失和爆炸的根本原因就是 $∏j=k+1t∂Sj∂Sj−1\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}$ 这一坨，要消除这种情况就需要把这一坨在求偏导的过程中去掉，至于怎么去掉，一种办法就是使 $∂Sj∂Sj−1≈1或者∂Sj∂Sj−1≈0\frac{\partial S_{j}}{\partial S_{j-1}} \approx 1或者\frac{\partial S_{j}}{\partial S_{j-1}} \approx 0$ 其实这就是LSTM做的事情。

总结：

梯度消失：一句话，RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间，反向传播时更新前面时刻的参数时，当参数W初始化为小于1的数，则多个(tanh函数’ * W)相乘，将导致求得的偏导极小（小于1的数连乘），从而导致梯度消失。
梯度爆炸：当参数初始化为足够大，使得tanh函数的导数乘以W大于1，则将导致偏导极大（大于1的数连乘），从而导致梯度爆炸。