深度学习课程项目：一步步构建循环神经网络(RNN)与LSTM网络详解

最新推荐文章于 2025-06-18 18:19:14 发布

原创最新推荐文章于 2025-06-18 18:19:14 发布 · 214 阅读

CC 4.0 BY-SA版权

深度学习课程项目：一步步构建循环神经网络(RNN)与LSTM网络详解

deep-learning-coursera Deep Learning Specialization by Andrew Ng on Coursera. 项目地址: https://gitcode.com/gh_mirrors/de/deep-learning-coursera

1. 循环神经网络基础概念

循环神经网络(Recurrent Neural Network, RNN)是一种专门用于处理序列数据的神经网络架构。与传统的前馈神经网络不同，RNN具有"记忆"能力，能够通过隐藏层状态保存之前时间步的信息，这使得它非常适合处理自然语言、时间序列等具有时序特征的数据。

1.1 RNN的核心特点

RNN的核心特点在于其循环连接结构，这使得网络能够：

逐个时间步读取输入数据$x^{⟨t⟩}$（如单词）
通过隐藏层激活值$a^{⟨t⟩}$在不同时间步之间传递信息
利用过去的信息处理后续的输入

1.2 RNN的数学表示

一个基本的RNN单元在每个时间步t的计算可以表示为：

$a^{⟨t⟩} = \tanh(W_{aa}a^{⟨t-1⟩} + W_{ax}x^{⟨t⟩} + b_a)$

$\hat{y}^{⟨t⟩} = \text{softmax}(W_{ya}a^{⟨t⟩} + b_y)$

其中：

$W_{aa}$是隐藏状态权重矩阵
$W_{ax}$是输入权重矩阵
$W_{ya}$是输出权重矩阵
$b_a$和$b_y$是偏置项

2. RNN的前向传播实现

2.1 单个RNN单元的实现

让我们首先实现单个时间步的RNN单元计算：

def rnn_cell_forward(xt, a_prev, parameters):
    """
    实现单个RNN单元的前向传播
    
    参数:
    xt -- 当前时间步的输入数据，形状为(n_x, m)
    a_prev -- 前一个时间步的隐藏状态，形状为(n_a, m)
    parameters -- 参数字典，包含:
                  Wax -- 输入权重矩阵
                  Waa -- 隐藏状态权重矩阵
                  Wya -- 输出权重矩阵
                  ba -- 隐藏层偏置
                  by -- 输出层偏置
    
    返回:
    a_next -- 下一个隐藏状态
    yt_pred -- 当前时间步的预测
    cache -- 用于反向传播的缓存值
    """
    # 从参数字典中获取参数
    Wax = parameters["Wax"]
    Waa = parameters["Waa"]
    Wya = parameters["Wya"]
    ba = parameters["ba"]
    by = parameters["by"]
    
    # 计算下一个隐藏状态
    a_next = np.tanh(np.dot(Wax, xt) + np.dot(Waa, a_prev) + ba)
    
    # 计算当前时间步的输出预测
    yt_pred = softmax(np.dot(Wya, a_next) + by)
    
    # 存储反向传播需要的值
    cache = (a_next, a_prev, xt, parameters)
    
    return a_next, yt_pred, cache

2.2 完整RNN前向传播

在实现单个RNN单元后，我们可以将其扩展到处理整个输入序列：

def rnn_forward(x, a0, parameters):
    """
    实现完整RNN的前向传播
    
    参数:
    x -- 所有时间步的输入数据，形状为(n_x, m, T_x)
    a0 -- 初始隐藏状态，形状为(n_a, m)
    parameters -- 参数字典
    
    返回:
    a -- 所有时间步的隐藏状态
    y_pred -- 所有时间步的预测
    caches -- 用于反向传播的缓存
    """
    # 初始化缓存列表
    caches = []
    
    # 获取输入和输出的维度信息
    n_x, m, T_x = x.shape
    n_y, n_a = parameters["Wya"].shape
    
    # 初始化隐藏状态和输出预测
    a = np.zeros((n_a, m, T_x))
    y_pred = np.zeros((n_y, m, T_x))
    
    # 初始化下一个隐藏状态
    a_next = a0
    
    # 循环处理每个时间步
    for t in range(T_x):
        # 计算当前时间步的隐藏状态和预测
        a_next, yt_pred, cache = rnn_cell_forward(x[:,:,t], a_next, parameters)
        
        # 保存结果
        a[:,:,t] = a_next
        y_pred[:,:,t] = yt_pred
        caches.append(cache)
    
    # 整理缓存
    caches = (caches, x)
    
    return a, y_pred, caches

3. 长短期记忆网络(LSTM)简介

虽然基础RNN能够处理序列数据，但它存在梯度消失问题，难以学习长期依赖关系。长短期记忆网络(Long Short-Term Memory, LSTM)是RNN的一种改进架构，通过引入门控机制和细胞状态，能够更好地捕捉长期依赖。

3.1 LSTM的核心组件

LSTM单元包含三个关键门控结构：

遗忘门(Forget Gate)：决定从细胞状态中丢弃哪些信息
输入门(Input Gate)：决定哪些新信息将被存储到细胞状态中
输出门(Output Gate)：决定基于细胞状态的输出

3.2 LSTM的数学表示

LSTM单元的计算过程可以表示为：

$\Gamma_f^{⟨t⟩} = \sigma(W_f[a^{⟨t-1⟩}, x^{⟨t⟩}] + b_f)$ (遗忘门)

$\Gamma_u^{⟨t⟩} = \sigma(W_u[a^{⟨t-1⟩}, x^{⟨t⟩}] + b_u)$ (更新门)

$\tilde{c}^{⟨t⟩} = \tanh(W_c[a^{⟨t-1⟩}, x^{⟨t⟩}] + b_c)$ (候选细胞状态)

$c^{⟨t⟩} = \Gamma_f^{⟨t⟩} \odot c^{⟨t-1⟩} + \Gamma_u^{⟨t⟩} \odot \tilde{c}^{⟨t⟩}$ (更新细胞状态)

$\Gamma_o^{⟨t⟩} = \sigma(W_o[a^{⟨t-1⟩}, x^{⟨t⟩}] + b_o)$ (输出门)

$a^{⟨t⟩} = \Gamma_o^{⟨t⟩} \odot \tanh(c^{⟨t⟩})$ (隐藏状态)

其中$\sigma$表示sigmoid函数，$\odot$表示逐元素乘法。

4. 总结与比较

4.1 RNN与LSTM的比较

| 特性 | 基础RNN | LSTM | |------|--------|------| | 记忆能力 | 短期记忆 | 长期记忆 | | 梯度问题 | 容易梯度消失 | 缓解梯度消失 | | 门控机制 | 无 | 有(遗忘门、输入门、输出门) | | 计算复杂度 | 较低 | 较高 | | 参数数量 | 较少 | 较多 |