深入理解长短期记忆网络（LSTM）——d2l-zh项目解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01101/article/details/148324349

深入理解长短期记忆网络（LSTM）——d2l-zh项目解析

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

引言

长短期记忆网络（LSTM）是循环神经网络（RNN）的重要变体，由Hochreiter和Schmidhuber于1997年提出。它通过精心设计的门控机制解决了传统RNN在处理长序列时面临的梯度消失和梯度爆炸问题。本文将深入解析LSTM的工作原理、实现细节及其在序列建模中的应用。

LSTM的核心思想

记忆元与门控机制

LSTM的核心创新在于引入了记忆元（Memory Cell）和三种门控机制：

输入门：控制新信息流入记忆元的程度
遗忘门：决定丢弃多少旧记忆
输出门：控制记忆元对当前隐藏状态的影响

这种设计使LSTM能够选择性地记住或遗忘信息，有效缓解了长期依赖问题。

数学表达

LSTM的计算过程可以分解为以下几个步骤：

门控计算：
- 输入门：$I_t = \sigma(X_tW_{xi} + H_{t-1}W_{hi} + b_i)$
- 遗忘门：$F_t = \sigma(X_tW_{xf} + H_{t-1}W_{hf} + b_f)$
- 输出门：$O_t = \sigma(X_tW_{xo} + H_{t-1}W_{ho} + b_o)$
候选记忆元： $\tilde{C}t = \tanh(X_tW{xc} + H_{t-1}W_{hc} + b_c)$
记忆元更新： $C_t = F_t \odot C_{t-1} + I_t \odot \tilde{C}_t$
隐藏状态： $H_t = O_t \odot \tanh(C_t)$

其中$\sigma$表示sigmoid函数，$\odot$表示逐元素乘法。

从零实现LSTM

参数初始化

实现LSTM首先需要初始化各种权重参数和偏置项。这些参数包括：

输入门、遗忘门、输出门的权重和偏置
候选记忆元的权重和偏置
输出层的权重和偏置

def get_lstm_params(vocab_size, num_hiddens, device):
    # 初始化各门和候选记忆元的参数
    W_xi, W_hi, b_i = three()  # 输入门
    W_xf, W_hf, b_f = three()  # 遗忘门
    W_xo, W_ho, b_o = three()  # 输出门
    W_xc, W_hc, b_c = three()  # 候选记忆元
    W_hq, b_q = normal(), zeros()  # 输出层
    return [W_xi, W_hi, b_i, ...]

前向传播

LSTM的前向传播过程需要依次计算各门控值、候选记忆元，然后更新记忆元和隐藏状态：

def lstm(inputs, state, params):
    (H, C) = state
    for X in inputs:
        # 计算各门控值
        I = sigmoid(X@W_xi + H@W_hi + b_i)
        F = sigmoid(X@W_xf + H@W_hf + b_f)
        O = sigmoid(X@W_xo + H@W_ho + b_o)
        # 候选记忆元
        C_tilda = tanh(X@W_xc + H@W_hc + b_c)
        # 更新记忆元和隐藏状态
        C = F * C + I * C_tilda
        H = O * tanh(C)
        Y = H@W_hq + b_q
    return outputs, (H, C)

高级API实现

现代深度学习框架提供了LSTM的高级实现，大大简化了使用过程：

# PyTorch实现
lstm_layer = nn.LSTM(input_size, hidden_size)
model = RNNModel(lstm_layer, vocab_size)

LSTM的特点与优势

长期记忆能力：通过记忆元和遗忘门机制，LSTM可以选择性地保留长期信息
梯度稳定：门控机制有效缓解了梯度消失/爆炸问题
灵活的信息流：各门控单元可以动态调节信息流动

应用建议

对于长序列任务，LSTM通常比普通RNN表现更好
调整隐藏层大小和训练轮数可以平衡模型性能和训练成本
在实际应用中，可以考虑使用双向LSTM或堆叠多层LSTM来提升模型能力

总结

LSTM通过引入记忆元和门控机制，成功解决了传统RNN在处理长序列时的局限性。理解LSTM的工作原理对于掌握现代序列建模技术至关重要。虽然Transformer等新架构在某些任务上表现更好，但LSTM仍然是许多序列处理任务的基础模型。

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考