LSTM如何解决梯度消失与梯度爆炸

最新推荐文章于 2025-05-10 18:59:14 发布

原创最新推荐文章于 2025-05-10 18:59:14 发布 · 2.9k 阅读

5 ·

CC 4.0 BY-SA版权

深度学习与神经网络专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了长短期记忆网络（LSTM）如何通过其独特的门控机制，有效解决传统递归神经网络（RNN）中存在的梯度消失与爆炸问题。通过对比RNN与LSTM的偏导数求解过程，展示了LSTM如何利用sigmoid和tanh函数组合，保持梯度稳定，从而确保深层网络训练的可行性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
这是一张经典的LSTM示意图，LSTM依靠 $f_t$ 、 $i_t$ 、 $o_t$ 来控制输入输出， $f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right)$ $i_{t}=\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right)$ $o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right)$
我们将其简化为： $f_{t}=\sigma\left(W_{f} X_{t}+b_{f}\right)$ $i_{t}=\sigma\left(W_{i} X_{t}+b_{i}\right)$ $o_{i}=\sigma\left(W_{o} X_{t}+b_{o}\right)$
当前的状态 $S_{t}=f_{t} S_{t-1}+i_{t} X_{t}$ 类似与传统RNN $S_{t}=W_{s} S_{t-1}+W_{x} X_{t}+b_{1}$ 。将LSTM的状态表达式展开后得： $S_{t}=\sigma\left(W_{f} X_{t}+b_{f}\right) S_{t-1}+\sigma\left(W_{i} X_{t}+b_{i}\right) X_{t}$ 如果加上激活函数 $S_{t}=\tanh \left[\sigma\left(W_{f} X_{t}+b_{f}\right) S_{t-1}+\sigma\left(W_{i} X_{t}+b_{i}\right) X_{t}\right]$ RNN梯度消失和爆炸的原因这篇文章中传统RNN求偏导的过程包含： $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s}$ 对于LSTM同样也包含这样的一项，但是在LSTM中： $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} \sigma\left(W_{f} X_{t}+b_{f}\right)$ 假设 $Z=\tanh ^{\prime}(x) \sigma(y)$ ，则 $Z$ 的函数图像如下图所示：

在这里插入图片描述
可以看到该函数值基本上不是0就是1。
传统RNN的求偏导过程： $\frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{s}}$
在LSTM中为： $\frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{1}}{\partial W_{s}}$
因为 $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} \sigma\left(W_{f} X_{t}+b_{f}\right) \approx 0 | 1$
这样就解决了传统RNN中梯度消失的问题。