【神经网络学习日记(4)】循环神经网络（RNN、LSTM、BiLSTM、GRU）

原创已于 2024-10-02 12:36:08 修改 · 2.2k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #rnn #学习 #lstm #gru #循环神经网络 #深度学习

于 2024-01-15 14:27:41 首次发布

部署运行你感兴趣的模型镜像

文章目录

1 RNN网络结构
2 长短时记忆网络（LSTM）
3 双向长短时记忆网络（BiLSTM）
4 门控神经网络（GRU）

本文是笔者进行神经网络学习的个人学习日记

图片和链接均源自网络，侵删

1 RNN网络结构

RNN作为循环神经网络的基础结构，只能对短期的内容进行记忆，但是是不得不学的。相对于普通的FCNN，它更关注时间序列，随着时间的推进，不断有新的输入加入到RNN中，而每次经过计算后的输出值，会作为部分输入参与到下一个节点的计算中。如下图：

在标准的RNN中，每个神经元中都只有一个简单的结构，例如一个Sigmoid层或一个Tanh层，将输入变换为(0, 1)或(-1, 1)上的输出，公式如下：
$\sigma(x)=\frac{1}{1+\exp(-x)}\quad tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

深度学习之RNN(循环神经网络)：https://blog.youkuaiyun.com/qq_32241189/article/details/80461635

Pytorch循环神经网络（RNN）快速入门与实战：https://blog.youkuaiyun.com/weixin_45727931/article/details/114369073

2 长短时记忆网络（LSTM）

长短时记忆网络，相较于普通的RNN，它解决了短期依赖的问题。LSTM的关键在于细胞状态，它是贯穿于细胞上方的水平线，只存在一些少量的线性交互，信息在上面流传时保持相对小的变化。

如上图所示，LSTM拥有三种类型的门结构：忘记门、输入门和输出门，来保护和控制细胞状态。

2.1 忘记门

忘记门在LSTM神经元中的位置如下图所示。它会读取上一个神经元的输出 $h_{t-1}$ 和当前输入 $x_t$ ，经过一个简单的sigmoid层，输出一个 $f_t$ ，即： $f_t=\sigma(W_{fh}h_{t-1}+W_{fx}x_t+b_f)$ 。

而这个输出 $f_t$ 会与上一个神经元输出的细胞状态 $C_{t-1}$ 相乘，由于 $f_t$ 的值在0到1之间，与原先的细胞状态相乘后，相当于忘记了一定程度 $C_{t-1}$ 的内容。

例如，在语言处理中，我们假设原先的细胞状态 $C_{t-1}$ 可能保存着当前主语的信息（如性别等），而当我们看到新的主语时，我们希望丢弃原先的主语信息，防止干扰后续信息的正常流传。

2.2 输入门

输入门在LSTM神经元中的位置如下如所示。输入值通过Tanh层产生新的候选值向量 $\tilde{C}_t$ ，它会经过与Sigmoid层产生的 $i_t$ 相乘，Sigmoid层决定了我们需要更新什么值（即 $i_t\times\tilde{C}_t$ ），最后，这个值会加入到细胞状态中。

类比到上面的例子中，当我们丢弃了原先的主语信息后，我们需要把新的主语信息加入到细胞状态中，来代替原先的信息。

2.3 输出门

经过上面的变化，我们已经得到了新的细胞状态 $C_t$ ，即：
$C_t=f_t\times C_{t-1}+i_t\times\tilde{C}_t$
而新的细胞状态将会有一部分要作为输出，这部分通过Sigmoid层来决定。我们将细胞状态 $C_t$ 经过Tanh层处理后，与Sigmoid门产生的 $o_t$ 相乘，产生了我们需要输出的 $h_t$ 。

同样类比到上面的例子，这个输出的部分可能包含了一些主语之外的其他信息，需要通过细胞状态进行推断。

最后，这里还有两张图，但不适合放在这里，就放两个超链接吧：LSTM详细结构图和LSTM结构动图。

如何从RNN起步，一步一步通俗理解LSTM：https://blog.youkuaiyun.com/v_JULY_v/article/details/89894058

Pytorch LSTM实现中文单词预测（附完整训练代码）：https://blog.youkuaiyun.com/guyuealian/article/details/128582675

时间序列预测——LSTM模型（附代码实现）：https://blog.youkuaiyun.com/weixin_52910499/article/details/124693212

3 双向长短时记忆网络（BiLSTM）

BiLSTM指的是双向LSTM，从上面LSTM的介绍中我们也可以看出，单向的循环神经网络结构模型实际上只是不断参考“上文”和“当前”的信息，而没有考虑到“下文”的信息。在实际语言分析中，我们有可能会需要结合上下文内容，因此，我们有了双向长短时记忆网络。其最终的输出的结果为正向的LSTM结果与反向LSTM结果的简单堆叠。

Pytorch实战笔记(1)——BiLSTM 实现情感分析：https://blog.youkuaiyun.com/qq_35357274/article/details/128701233

一幅图真正理解LSTM、BiLSTM：https://blog.youkuaiyun.com/weixin_42118657/article/details/120022112

4 门控神经网络（GRU）

GRU是门控神经网络（Gate Recurrent Units），它与LSTM最大的不同在于GRU将忘记门和输入门合并了，组成了一个“更新门”。

GRU有两个输入端，分别是当前时刻的输入 $x_r$ 和前一时刻的隐藏状态 $h_{t-1}$ 。从左到右三个激活函数分别控制着重置门（ $r_t$ ）、更新门（ $z_t$ ）和候选隐藏状态（ $\widetilde h_t$ ），下面分别介绍。

4.1 重置门（ $r_t$ ）

重置门决定了有多少过去的信息需要遗忘，计算公式为：
$r_t=\sigma(W_rx_t+U_rh_{t-1}+b_r)$
其中， $W_r$ 和 $U_r$ 分别为输入和前一时刻隐藏状态到重置门的权重矩阵， $b_r$ 为偏置项。

4.2 更新门（ $z_t$ ）

更新门决定了有多少过去的信息将要被传递到未来，计算公式为：
$z_t=\sigma(W_zx_t+U_zh_{t-1}+b_z)$
其中， $W_z$ 和 $U_z$ 分别为输入和前一时刻隐藏状态到更新门的权重矩阵， $b_t$ 为偏置项。

4.3 候选隐藏状态（ $\widetilde h_t$ ）

该部分基于当前输入和经过重置门调整后的前一时刻隐藏状态计算得到，是更新隐藏状态的候选，计算公式为：
$\widetilde h_t=\text{tanh}(W_hx_t+U_h(r_t\odot h_{t-1})+b_h)$
其中， $\odot$ 表示元素乘法（Hadamard乘积）。

4.4 最终隐藏状态（ $h_t$ ）

通过更新门得到的 $z_t$ 对前一时刻隐藏状态 $h_{t-1}$ 和候选隐藏状态 $h_t$ 加权组合，得到当前时刻最终隐藏状态：
$h_t=(1-z_t)\odot h_{t-1}+z_t\odot\widetilde h_t$
门控循环单元不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。