循环神经网络进阶篇

原创已于 2025-02-26 20:51:16 修改 · 633 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#rnn #lstm #人工智能

于 2025-02-25 20:35:08 首次发布

循环神经网络系列专栏收录该内容

4 篇文章

订阅专栏

循环神经网络进阶篇

1. 引言

循环神经网络（Recurrent Neural Network, RNN）是一种专门用于处理序列数据的神经网络模型。与传统前馈神经网络不同，RNN 具有内部循环结构，能够存储和利用过去的信息。因此，它在自然语言处理（NLP）、时间序列预测和语音识别等领域表现出色。

本篇博客将深入探讨 RNN 的高级内容，包括 LSTM、GRU、双向 RNN 以及 Transformer 的相关概念。

2. RNN 的局限性

尽管 RNN 在处理序列数据方面具有独特的优势，但它也存在一些问题：

梯度消失与梯度爆炸：在较长的序列上，RNN 的梯度可能会迅速衰减或过度增长，导致模型难以训练。
长期依赖问题：RNN 很难学习到距离较远的依赖关系。
计算效率低：由于循环结构的限制，RNN 的训练和推理速度较慢。

为了克服这些问题，人们提出了 LSTM（长短时记忆网络）和 GRU（门控循环单元）。

3. LSTM（Long Short-Term Memory）

LSTM 通过引入门机制（门控单元）来有效解决长期依赖问题。LSTM 由以下三个门组成：

遗忘门（Forget Gate）：决定丢弃多少过去的信息。
输入门（Input Gate）：决定当前时刻的信息如何更新细胞状态。
输出门（Output Gate）：决定当前时刻的隐藏状态。

LSTM 的核心公式如下：

$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)\\ f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)\\ o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)\\ \tilde{C_t} = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)\\ C_t = f_t * C_{t-1} + i_t * \tilde{C_t}\\ h_t = o_t * \tanh(C_t)$

LSTM 通过控制信息的流动，能够更好地捕获长期依赖。

4. GRU（Gated Recurrent Unit）

GRU 是 LSTM 的一种变体，它用更少的参数实现了类似的效果。GRU 主要由两个门组成：

重置门（Reset Gate）：决定遗忘多少过去的信息。
更新门（Update Gate）：决定当前时刻的隐藏状态如何更新。

GRU 的核心公式如下：

$r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)\\ z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)\\ \tilde{h_t} = \tanh(W_h \cdot [r_t * h_{t-1}, x_t] + b_h)\\ h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h_t}$

GRU 计算上比 LSTM 更高效，适用于对计算资源要求较高的任务。

5. 双向 RNN（Bidirectional RNN）

标准 RNN 只能从过去到未来处理序列数据，而 双向 RNN 通过同时考虑正向和反向的信息，提高模型的理解能力。它的基本思想是：

前向 RNN 处理从 t=1 到 t=T 的数据。
反向 RNN 处理从 t=T 到 t=1 的数据。
最终的输出是前向和反向的隐藏状态拼接或加权求和。

双向 RNN 在机器翻译、语音识别等任务中表现优秀。

6. Transformer：下一代序列建模方式

虽然 RNN 及其变体在序列建模方面表现出色，但它们仍然存在计算瓶颈。2017 年，Google 提出了 Transformer，其核心思想是 自注意力机制（Self-Attention），可以完全避免 RNN 的顺序计算限制，实现高效的并行训练。

Transformer 采用 多头自注意力（Multi-Head Self-Attention） 机制，计算复杂度更低，并且能够捕获全局依赖关系。

著名的 BERT、GPT、T5 等模型均基于 Transformer 结构，已经在 NLP 领域取得了革命性的进展。

7. 代码示例：LSTM 处理文本分类

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super(LSTMModel, self).__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)
    
    def forward(self, x):
        out, _ = self.lstm(x)
        out = self.fc(out[:, -1, :])  # 取最后一个时间步的输出
        return out

# 设定参数
input_size = 10
hidden_size = 50
num_layers = 2
output_size = 2

model = LSTMModel(input_size, hidden_size, num_layers, output_size)
print(model)