【深度学习】LSTM长短期记忆网络

原创于 2025-11-20 20:37:57 发布 · 944 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #lstm #人工智能 #机器学习 #性能优化 #算法 #神经网络

深度学习专栏收录该内容

4 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

LSTM是循环神经网络（RNN）的一种变体，旨在解决传统RNN在处理长序列依赖时出现的梯度消失或爆炸问题。

一、理论基础与核心结构

1. 为什么需要LSTM？（传统RNN的缺陷）

传统的RNN在处理序列数据时，理论上可以连接遥远的输入，但实际上，随着序列长度的增加，梯度在反向传播过程中会呈指数级衰减或增长，导致：

梯度消失 (Vanishing Gradient): 模型无法学习到早期的输入信息，即“短期记忆”问题。
梯度爆炸 (Exploding Gradient): 模型权重更新过大，导致训练不稳定。

LSTM通过引入一个特殊的结构——记忆元（Cell State, $C_t$ ） 和 门控机制（Gating Mechanism） 来解决这一问题。

2. LSTM的核心结构

LSTM的核心在于它的记忆元（或称单元状态， $C_t$ ），它就像一条“传送带”，贯穿整个序列，允许信息在其中保持不变地传递。而门则负责精细地控制信息的流入、流出和更新。

一个LSTM单元主要包含以下四个关键部分：

名称	符号	作用
遗忘门	$f_t$	决定从上一个记忆元 $C_{t-1}$ 中保留多少信息。
输入门	$i_t$	决定将当前输入 $x_t$ 和前一个隐状态 $h_{t-1}$ 的新信息更新到记忆元 $C_t$ 中的程度。
候选记忆元	$C~t\tilde{C}_t$	当前时间步的新信息候选项，由 $x_t$ 和 $h_{t-1}$ 决定。
输出门	$o_t$	决定从当前记忆元 $C_t$ 中输出多少信息到当前隐状态 $h_t$ 。

3. 数学原理（门控机制）

在每个时间步 $t$ ，LSTM单元接收三个输入：当前输入 $x_t$ 、上一个隐状态 $h_{t-1}$ 和上一个记忆元 $C_{t-1}$ ，并输出当前隐状态 $h_t$ 和当前记忆元 $C_t$ 。

① 遗忘门（Forget Gate, $f_t$ ）

$ft=σ(Wf⋅[ht−1,xt]+bf)f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

$σ\sigma$ 是 sigmoid 激活函数，输出一个介于 $[0, 1]$ 之间的向量。
$f_t$ 与 $C_{t-1}$ 做逐元素乘法（element-wise multiplication），决定了 $C_{t-1}$ 中哪些部分被“遗忘”（接近0），哪些部分被“保留”（接近1）。

② 输入门（Input Gate, $i_t$ ）和候选记忆元（ $C~t\tilde{C}_t$ ）

这一步决定了要向记忆元中添加哪些新信息。

$it=σ(Wi⋅[ht−1,xt]+bi)C~t=tanh⁡(WC⋅[ht−1,xt]+bC)\begin{aligned} i_t &= \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \\ \tilde{C}_t &= \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \end{aligned}$

$i_t$ （sigmoid）决定了哪些新信息是重要的（接近1）。
$C~t\tilde{C}_t$ （ $tanh⁡\tanh$ ）创建了一个新的候选向量，包含当前输入和隐状态的组合信息，范围在 $[- 1, 1]$ 。

③ 更新记忆元（Cell State, $C_t$ ）

这是LSTM最核心的一步：结合旧记忆和新信息。

$Ct=ft⊙Ct−1+it⊙C~tC_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$

$ft⊙Ct−1f_t \odot C_{t-1}$ : 保留下来的旧信息。
$it⊙C~ti_t \odot \tilde{C}_t$ : 要添加的新信息。
通过加法操作，信息得以累积，有助于梯度的稳定传递（避免梯度消失）。

④ 输出门（Output Gate, $o_t$ ）和隐状态（Hidden State, $h_t$ ）

最后，决定最终的输出 $h_t$ 。

$ot=σ(Wo⋅[ht−1,xt]+bo)ht=ot⊙tanh⁡(Ct)\begin{aligned} o_t &= \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \\ h_t &= o_t \odot \tanh(C_t) \end{aligned}$

$o_t$ （sigmoid）决定了记忆元 $C_t$ 的哪些部分会被输出。
对 $C_t$ 使用 $tanh⁡\tanh$ 激活函数将其值规范化到 $[- 1, 1]$ ，然后通过 $o_t$ 筛选得到最终的隐状态 $h_t$ 。 $h_t$ 用于当前时间步的预测，并传递给下一个时间步。

二、实践应用与技巧

1. 常见的应用领域

LSTM因其处理序列数据的能力，广泛应用于：

自然语言处理 (NLP): 机器翻译、文本生成、情感分析、命名实体识别。
语音识别 (Speech Recognition): 处理音频信号序列。
时间序列预测 (Time Series Forecasting): 股票价格预测、天气预报、传感器数据分析。
图像描述 (Image Captioning): 结合CNN提取的图像特征，生成描述性序列文本。

2. 实践中的重要变体与技巧

变体/技巧	描述	目的
双向LSTM (Bi-LSTM)	沿时间轴正向和反向各运行一个LSTM，并将它们的隐状态拼接起来。	允许模型同时利用过去和未来的信息来进行当前时间步的预测，尤其适用于完整的序列任务（如命名实体识别）。
堆叠LSTM (Stacked/Multi-layer LSTM)	将多层LSTM堆叠起来，上一层的输出作为下一层的输入。	增加模型的深度和表示能力，用于解决更复杂的任务。
GRU (Gated Recurrent Unit)	LSTM的简化版，将输入门、遗忘门和记忆元合并为更新门和重置门。	参数更少，训练更快，但在某些任务上性能可能略逊于LSTM。
Dropout	在非循环连接上使用（如输入层到LSTM层，或LSTM层到输出层），以防止过拟合。注意：一般不在循环连接上直接使用。	正则化，提高模型的泛化能力。
梯度裁剪 (Gradient Clipping)	在反向传播时，将梯度值限制在一个最大阈值内。	解决梯度爆炸问题，是训练RNN/LSTM的必备技巧。

3. PyTorch/TensorFlow 实践示例（伪代码）

在实际使用中，主流深度学习框架（如PyTorch或TensorFlow/Keras）都提供了高度封装的LSTM层，大大简化了实现：

# 以 PyTorch 为例

import torch.nn as nn

# 定义一个LSTM模型
class LSTMBasedModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, num_layers, output_dim):
        super(LSTMBasedModel, self).__init__()
        
        # 1. 定义LSTM层
        # batch_first=True 表示输入数据的维度是 (batch_size, seq_len, input_dim)
        self.lstm = nn.LSTM(
            input_size=input_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,
            batch_first=True,
            bidirectional=False # 设置为 True 即可变为 Bi-LSTM
        )
        
        # 2. 定义全连接层（用于最终输出）
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        # x 形状: (batch_size, seq_len, input_dim)
        
        # h_0 和 c_0 默认初始化为零，也可以手动传入
        # output 形状: (batch_size, seq_len, hidden_dim * num_directions)
        # (h_n, c_n) 是最后一个时间步的隐状态和记忆元
        output, (h_n, c_n) = self.lstm(x)
        
        # 取最后一个时间步的隐状态来进行序列级别的预测
        # h_n 形状: (num_layers * num_directions, batch_size, hidden_dim)
        # 这里我们取顶层（最深层）的最后一个时间步的隐状态
        last_hidden_state = h_n[-1] 
        
        # 传入全连接层
        out = self.fc(last_hidden_state)
        
        return out

# 实例化模型
# model = LSTMBasedModel(input_dim=100, hidden_dim=256, num_layers=2, output_dim=10)

总结

LSTM的“深刻”之处在于其巧妙地使用了门控机制（遗忘门、输入门、输出门）和加法操作来构建记忆元 $C_t$ 。

门控机制赋予了模型对信息流的精细控制，决定“记住什么”和“忘记什么”。
记忆元上的加法更新 ( $Ct=ft⊙Ct−1+it⊙C~tC_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$ ) 是解决长距离依赖和梯度消失的关键。这种线性累加操作使得梯度可以沿着时间线稳定地回传，有效避免了传统RNN中梯度连乘导致的衰减。