LSTM如何解决梯度消失与梯度爆炸

本文深入探讨了长短期记忆网络(LSTM)如何通过其独特的门控机制,有效解决传统递归神经网络(RNN)中存在的梯度消失与爆炸问题。通过对比RNN与LSTM的偏导数求解过程,展示了LSTM如何利用sigmoid和tanh函数组合,保持梯度稳定,从而确保深层网络训练的可行性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
  这是一张经典的LSTM示意图,LSTM依靠  f t f_t ft i t i_t it o t o_t ot来控制输入输出, f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_{t}=\sigma\left(W_{f} \cdot\left[h_{t-1}, x_{t}\right]+b_{f}\right) ft=σ(Wf[ht1,xt]+bf) i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_{t}=\sigma\left(W_{i} \cdot\left[h_{t-1}, x_{t}\right]+b_{i}\right) it=σ(Wi[ht1,xt]+bi) o t = σ ( W o [ h t − 1 , x t ] + b o ) o_{t}=\sigma\left(W_{o}\left[h_{t-1}, x_{t}\right]+b_{o}\right) ot=σ(Wo[ht1,xt]+bo)
  我们将其简化为: f t = σ ( W f X t + b f ) f_{t}=\sigma\left(W_{f} X_{t}+b_{f}\right) ft=σ(WfXt+bf) i t = σ ( W i X t + b i ) i_{t}=\sigma\left(W_{i} X_{t}+b_{i}\right) it=σ(WiXt+bi) o i = σ ( W o X t + b o ) o_{i}=\sigma\left(W_{o} X_{t}+b_{o}\right) oi=σ(WoXt+bo)
  当前的状态  S t = f t S t − 1 + i t X t S_{t}=f_{t} S_{t-1}+i_{t} X_{t} St=ftSt1+itXt 类似与传统RNN  S t = W s S t − 1 + W x X t + b 1 S_{t}=W_{s} S_{t-1}+W_{x} X_{t}+b_{1} St=WsSt1+WxXt+b1 。将LSTM的状态表达式展开后得: S t = σ ( W f X t + b f ) S t − 1 + σ ( W i X t + b i ) X t S_{t}=\sigma\left(W_{f} X_{t}+b_{f}\right) S_{t-1}+\sigma\left(W_{i} X_{t}+b_{i}\right) X_{t} St=σ(WfXt+bf)St1+σ(WiXt+bi)Xt  如果加上激活函数 S t = tanh ⁡ [ σ ( W f X t + b f ) S t − 1 + σ ( W i X t + b i ) X t ] S_{t}=\tanh \left[\sigma\left(W_{f} X_{t}+b_{f}\right) S_{t-1}+\sigma\left(W_{i} X_{t}+b_{i}\right) X_{t}\right] St=tanh[σ(WfXt+bf)St1+σ(WiXt+bi)Xt]  RNN梯度消失和爆炸的原因这篇文章中传统RNN求偏导的过程包含: ∏ j = k + 1 t ∂ S j ∂ S j − 1 = ∏ j = k + 1 t tanh ⁡ ′ W s \prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s} j=k+1tSj1Sj=j=k+1ttanhWs  对于LSTM同样也包含这样的一项,但是在LSTM中: ∏ j = k + 1 t ∂ S j ∂ S j − 1 = ∏ j = k + 1 t tanh ⁡ ′ σ ( W f X t + b f ) \prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} \sigma\left(W_{f} X_{t}+b_{f}\right) j=k+1tSj1Sj=j=k+1ttanhσ(WfXt+bf) 假设   Z = tanh ⁡ ′ ( x ) σ ( y ) Z=\tanh ^{\prime}(x) \sigma(y) Z=tanh(x)σ(y),则 Z Z Z的函数图像如下图所示:

在这里插入图片描述
  可以看到该函数值基本上不是0就是1。
  传统RNN的求偏导过程: ∂ L 3 ∂ W s = ∂ L 3 ∂ O 3 ∂ O 3 ∂ S 3 ∂ S 3 ∂ W s + ∂ L 3 ∂ O 3 ∂ O 3 ∂ S 3 ∂ S 3 ∂ S 2 ∂ S 2 ∂ W s + ∂ L 3 ∂ O 3 ∂ O 3 ∂ S 3 ∂ S 3 ∂ S 2 ∂ S 2 ∂ S 1 ∂ S 1 ∂ W s \frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{s}} WsL3=O3L3S3O3WsS3+O3L3S3O3S2S3WsS2+O3L3S3O3S2S3S1S2WsS1
  在LSTM中为: ∂ L 3 ∂ W s = ∂ L 3 ∂ O 3 ∂ O 3 ∂ S 3 ∂ S 3 ∂ W s + ∂ L 3 ∂ O 3 ∂ O 3 ∂ S 3 ∂ S 2 ∂ W s + ∂ L 3 ∂ O 3 ∂ O 3 ∂ S 3 ∂ S 1 ∂ W s \frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{1}}{\partial W_{s}} WsL3=O3L3S3O3WsS3+O3L3S3O3WsS2+O3L3S3O3WsS1
  因为 ∏ j = k + 1 t ∂ S j ∂ S j − 1 = ∏ j = k + 1 t tanh ⁡ ′ σ ( W f X t + b f ) ≈ 0 ∣ 1 \prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}=\prod_{j=k+1}^{t} \tanh ^{\prime} \sigma\left(W_{f} X_{t}+b_{f}\right) \approx 0 | 1 j=k+1tSj1Sj=j=k+1ttanhσ(WfXt+bf)01
  这样就解决了传统RNN中梯度消失的问题。

### LSTM解决梯度消失梯度爆炸问题中的作用 #### 背景介绍 循环神经网络(RNN)在处理长时间序列数据时容易遇到梯度消失梯度爆炸的问题。这些问题源于反向传播过程中链式求导的结果,当时间步数较长时,梯度可能因乘积项中小于1的因子不断累积而趋于零(梯度消失),或者因大于1的因子累积而导致数值过大(梯度爆炸)。为了克服这些挑战,长短时记忆网络(LSTM)被设计出来。 #### 解决梯度消失问题 LSTM的核心机制之一是其内部的状态保持单元——细胞状态(cell state)。通过特殊的门控结构,LSTM可以有效地控制信息流动并减少梯度消失的可能性。具体来说: - **遗忘门的作用** 遗忘门允许模型决定哪些先前的信息应该被保留或丢弃。由于遗忘门的值由sigmoid激活函数生成,范围限定在[0,1]之间,这使得LSTM可以根据输入动态调整信息流[^2]。如果遗忘门接近1,则表示希望尽可能多地保留历史信息;反之,若接近0,则意味着忽略过去的信息。这种灵活性有助于防止远距离梯度逐渐衰减至零。 - **输入门输出门的设计** 输入门决定了新信息进入细胞状态的程度,而输出门则负责调节最终输出的内容。这两个组件共同协作,在维持长期依赖关系的同时避免不必要的干扰因素影响训练过程[^4]。 综上所述,借助精心设计的门控机制以及稳定的细胞状态更新方式,LSTM能够在一定程度上缓解传统RNN面临的严重梯度消失现象。 #### 应对梯度爆炸问题 尽管LSTM架构本身降低了梯度爆炸的风险,但在某些极端情况下仍可能发生此类状况。主要原因在于总的整体远距离梯度等于各条路径上的分量相加而成,其中部分路径可能存在不稳定的大规模变化趋势[^1]。然而,相比标准形式下的简单RNN而言,这种情况较为少见,原因如下: - 多重非线性变换增加了复杂程度,使实际有效增益受到抑制; - 特定类型的初始化策略进一步促进了平稳收敛行为的发生几率。 即便如此,针对可能出现的任何潜在风险,现代深度学习框架通常会采用诸如梯度裁剪之类的技术手段加以防范,从而确保整个优化流程更加稳健可靠[^3]。 ```python import torch.nn as nn class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(LSTMModel, self).__init__() self.lstm = nn.LSTM(input_size=input_size, hidden_size=hidden_size, num_layers=num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): out, _ = self.lstm(x) out = self.fc(out[:, -1, :]) return out ``` 上述代码展示了一个基本的PyTorch实现版本的LSTM模型定义方法及其前馈操作逻辑。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值