LSTM解决RNN梯度消失与梯度爆炸问题

本文深入探讨了RNN(循环神经网络)的工作原理,包括其BPTT(反向传播通过时间)过程,以及在处理序列数据时面临的梯度消失和梯度爆炸问题。进一步介绍了LSTM(长短期记忆网络)如何通过特殊的门控机制有效解决这些梯度问题,保持长期依赖性。

RNN(Recurrent Neural Network)由于其递归的网络结构(如图1所示),对于处理序列建模任务具有独特的优势,因此在许多领域有着广泛的应用。如自然语言处理、语音识别等。

1.RNN的BPTT

图1 RNN网络结构
根据RNN的网络结构可写出其基本方程:
S t = δ ( W S t − 1 + U X t )         ( 1 ) O t = δ ( V S t )                         ( 2 ) S_{t} = \delta(WS_{t-1} + UX_{t}) \ \ \ \ \ \ \ (1) \\ O_{t} = \delta(VS_{t}) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2) St=δ(WSt1+UXt)       (1)Ot=δ(VSt)                       (2)
假设交叉熵为其损失函数loss:
L = − ∑ t = 1 n O t l o g O t ^                       ( 3 ) L=-\sum_{t=1}^{n}O_{t}log\hat{O_{t}} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (3) L=t=1nOtlogOt^                     (3)
然后分别对W、U、V求偏导
先求V的偏导,因其偏导较为简单
∂ L ∂ V = ∂ L ∂ O t ⋅ ∂ O t ∂ V                  ( 4 ) \frac{\partial L}{\partial V}=\frac{\partial L}{\partial O_{t}}\cdot \frac{\partial O_{t}}{\partial V} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (4) VL=OtLVOt                (4)
再对W和U求偏导
由公式(1)可知,当前时刻的状态不仅与当前的输入有关,而且还与与前一时刻的状态有关。
对W和U运用链式求导
∂ L ∂ W = ∂ L ∂ O t ⋅ ∂ O t ∂ S t ⋅ ∂ S t ∂ S t − 1 ⋅ ∂ S t − 1 ∂ S t − 2 ⋅ . . . ⋅ ⋅ ∂ S 1 ∂ S 0 ⋅ ∂ S 0 ∂ W = ∂ L ∂ O t ⋅ ∂ O t ∂ S t ⋅ ∏ k = 1 t ∂ S k ∂ S k − 1 ⋅ ∂ S k − 1 ∂ W       ( 5 ) \begin{aligned} \frac{\partial L}{\partial W}&=\frac{\partial L}{\partial O_{t}}\cdot \frac{\partial O_{t}}{\partial S_{t}}\cdot \frac{\partial S_{t}}{\partial S_{t-1}}\cdot \frac{\partial S_{t-1}}{\partial S_{t-2}}\cdot...\cdot \cdot \frac{\partial S_{1}}{\partial S_{0}}\cdot \frac{\partial S_{0}}{\partial W}\\ &=\frac{\partial L}{\partial O_{t}}\cdot \frac{\partial O_{t}}{\partial S_{t}}\cdot \prod_{k=1}^{t} \frac{\partial S_{k}}{\partial S_{k-1}}\cdot \frac{\partial S_{k-1}}{\partial W}\ \ \ \ \ (5) \end{aligned} WL=OtLStOtSt1StSt2St1...S0S1WS0=OtLStOtk=1tSk1SkWSk1     (5)
同理可得
∂ L ∂ U = ∂ L ∂ O t ⋅ ∂ O t ∂ S t ⋅ ∂ S t ∂ S t − 1 ⋅ ∂ S t − 1 ∂ S t − 2 ⋅ . . . ⋅ ⋅ ∂ S 1 ∂ S 0 ⋅ ∂ S 0 ∂ U = ∂ L ∂ O t ⋅ ∂ O t ∂ S t ⋅ ∏ k = 1 t ∂ S k ∂ S k − 1 ⋅ ∂ S k − 1 ∂ U       ( 6 ) \begin{aligned} \frac{\partial L}{\partial U}&=\frac{\partial L}{\partial O_{t}}\cdot \frac{\partial O_{t}}{\partial S_{t}}\cdot \frac{\partial S_{t}}{\partial S_{t-1}}\cdot \frac{\partial S_{t-1}}{\partial S_{t-2}}\cdot...\cdot \cdot \frac{\partial S_{1}}{\partial S_{0}}\cdot \frac{\partial S_{0}}{\partial U}\\ &=\frac{\partial L}{\partial O_{t}}\cdot \frac{\partial O_{t}}{\partial S_{t}}\cdot \prod_{k=1}^{t} \frac{\partial S_{k}}{\partial S_{k-1}}\cdot \frac{\partial S_{k-1}}{\partial U}\ \ \ \ \ (6) \end{aligned} UL=OtLStOtSt1StSt2St1...S0S1US0=OtLStOtk=1tSk1SkUSk1     (6)

2.RNN梯度消失与梯度爆炸

由公式(1)可知
∂ S t ∂ S t − 1 = W ⋅ σ ′       ( 7 ) \frac{\partial S_{t}}{\partial S_{t-1}}=W\cdot {\sigma }'\ \ \ \ \ (7) St1St=Wσ     (7)
sigmod函数
图2 sigmod函数
当公式(7)的乘积小于1时,公式(5)和公式(6)就会趋近于0,也即梯度消失;
当公式(7)的乘积大于1时,公式(5)和公式(6)就会趋近于无穷大,也即梯度爆炸;

3.LSTM解决RNN梯度问题

在这里插入图片描述
PS:图片来源于http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 下面公式中的标号参考该链接中图片标号。
i t = σ ( W i [ h t − 1 ; x t ] + b i )         ( 8 ) f t = σ ( W f [ h t − 1 ; x t ] + b f )        ( 9 ) C ~ t = t a n h ( W c [ h t − 1 ; x t ] + b c )    ( 10 ) C t = i t ∗ C ~ t + f t ∗ C t − 1          ( 11 ) o t = σ ( W o [ h t − 1 ; x t ] + b o )        ( 12 ) h t = o t ∗ t a n h ( C t )                   ( 13 ) \begin{aligned} i_{t}&=\sigma (W_{i}[h_{t-1}; x_{t}]+b_{i}) \ \ \ \ \ \ \ (8) \\ f_{t}&=\sigma (W_{f}[h_{t-1}; x_{t}]+b_{f}) \ \ \ \ \ \ (9) \\ \tilde{C}_{t}&=tanh (W_{c}[h_{t-1}; x_{t}]+b_{c}) \ \ (10) \\ C_{t}&=i_{t}*\tilde{C}_{t}+f_{t}*C_{t-1} \ \ \ \ \ \ \ \ (11) \\ o_{t}&=\sigma (W_{o}[h_{t-1}; x_{t}]+b_{o}) \ \ \ \ \ \ (12) \\ h_{t}&=o_{t}*tanh(C_{t}) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (13) \\ \end{aligned} itftC~tCtotht=σ(Wi[ht1;xt]+bi)       (8)=σ(Wf[ht1;xt]+bf)      (9)=tanh(Wc[ht1;xt]+bc)  (10)=itC~t+ftCt1        (11)=σ(Wo[ht1;xt]+bo)      (12)=ottanh(Ct)                 (13)
类比RNN中偏导的连乘部分,LSTM中连乘部分为
∂ C t ∂ C t − 1 = f t = σ           ( 14 ) \frac{\partial C_{t}}{\partial C_{t-1}}=f_{t}=\sigma \ \ \ \ \ \ \ \ \ (14) Ct1Ct=ft=σ         (14)
对比公式(7)和公式(14),LSTM的连乘部分变成了σ,在实际参数更新过程中,通过控制其值接近于1,则经过多次连乘(训练)后,梯度也不会消失;而σ的值不会大于1,故不会出现梯度爆炸。

### LSTM解决梯度消失梯度爆炸问题中的作用 #### 背景介绍 循环神经网络(RNN)在处理长时间序列数据时容易遇到梯度消失梯度爆炸问题。这些问题源于反向传播过程中链式求导的结果,当时间步数较长时,梯度可能因乘积项中小于1的因子不断累积而趋于零(梯度消失),或者因大于1的因子累积而导致数值过大(梯度爆炸)。为了克服这些挑战,长短时记忆网络(LSTM)被设计出来。 #### 解决梯度消失问题 LSTM的核心机制之一是其内部的状态保持单元——细胞状态(cell state)。通过特殊的门控结构,LSTM可以有效地控制信息流动并减少梯度消失的可能性。具体来说: - **遗忘门的作用** 遗忘门允许模型决定哪些先前的信息应该被保留或丢弃。由于遗忘门的值由sigmoid激活函数生成,范围限定在[0,1]之间,这使得LSTM可以根据输入动态调整信息流[^2]。如果遗忘门接近1,则表示希望尽可能多地保留历史信息;反之,若接近0,则意味着忽略过去的信息。这种灵活性有助于防止远距离梯度逐渐衰减至零。 - **输入门输出门的设计** 输入门决定了新信息进入细胞状态的程度,而输出门则负责调节最终输出的内容。这两个组件共同协作,在维持长期依赖关系的同时避免不必要的干扰因素影响训练过程[^4]。 综上所述,借助精心设计的门控机制以及稳定的细胞状态更新方式,LSTM能够在一定程度上缓解传统RNN面临的严重梯度消失现象。 #### 应对梯度爆炸问题 尽管LSTM架构本身降低了梯度爆炸的风险,但在某些极端情况下仍可能发生此类状况。主要原因在于总的整体远距离梯度等于各条路径上的分量相加而成,其中部分路径可能存在不稳定的大规模变化趋势[^1]。然而,相比标准形式下的简单RNN而言,这种情况较为少见,原因如下: - 多重非线性变换增加了复杂程度,使实际有效增益受到抑制; - 特定类型的初始化策略进一步促进了平稳收敛行为的发生几率。 即便如此,针对可能出现的任何潜在风险,现代深度学习框架通常会采用诸如梯度裁剪之类的技术手段加以防范,从而确保整个优化流程更加稳健可靠[^3]。 ```python import torch.nn as nn class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(LSTMModel, self).__init__() self.lstm = nn.LSTM(input_size=input_size, hidden_size=hidden_size, num_layers=num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): out, _ = self.lstm(x) out = self.fc(out[:, -1, :]) return out ``` 上述代码展示了一个基本的PyTorch实现版本的LSTM模型定义方法及其前馈操作逻辑。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值