RNN-LSTM-GRU

最新推荐文章于 2025-03-05 16:00:01 发布

Shingle_

最新推荐文章于 2025-03-05 16:00:01 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习文章标签： RNN BRNN LSTM GRU

本文链接：https://blog.youkuaiyun.com/Shingle_/article/details/82469351

版权

本文介绍了循环神经网络（RNN）、长短期记忆网络（LSTM）和门控循环单元（GRU），探讨了深度RNN、双向RNN及梯度裁剪。LSTM通过输入门、遗忘门和输出门解决梯度消失问题，而GRU利用重置门和更新门进行信息管理。这些门控机制在序列建模任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

循环神经网络（Recurrent Neural Network, RNN）

这里写图片描述

假设 ${X}_t \in \mathbb{R}^{n \times d}$ 是序列中时间步 t 的小批量输入 ${H}_t \in \mathbb{R}^{n \times h}$ 该时间步的隐藏层变量。跟多层感知机不同在于这里我们保存上一时间步的隐藏变量 ${H}_{t-1}$ 并引入一个新的权重参数 ${W}_{hh} \in \mathbb{R}^{h \times h}$ ，它用来描述在当前时间步如何使用上一时间步的隐藏变量。具体来说，当前隐藏变量的计算由当前输入和上一时间步的隐藏状态共同决定：

H t = ϕ (X t W x h + H t - 1 W h h + b h),

${H}_t = \phi({X}_t {W}_{xh} + {H}_{t-1} {W}_{hh} + {b}_h),$

这里隐藏变量捕捉了截至当前时间步的序列历史信息，就像是神经网络当前时间步的状态或记忆一样，因此也称之为隐藏状态。

O t = H t W h y + b y .

${O}_t = {H}_t {W}_{hy} + {b}_y.$

def rnn(inputs, state, params):
    # inputs 和 outputs 皆为 num_steps 个形状为（batch_size, vocab_size）的矩阵。
    W_xh, W_hh, b_h, W_hy, b_y = params
    H, = state
    outputs = []
    for X in inputs:
        H = nd.tanh(nd.dot(X, W_xh) + nd.dot(H, W_hh) + b_h)
        Y = nd.dot(H, W_hy) + b_y
        outputs.append(Y)
    return outputs, (H,)