深度/机器学习基础知识要点：RNN、LSTM、GRU_神经网络的隐藏层其实就一个向量-优快云博客

本文链接：https://blog.youkuaiyun.com/zengNLP/article/details/104135185

本文深入探讨了循环神经网络(RNN)的工作原理，包括其结构、计算过程及如何处理序列数据。进一步解析了长短时记忆网络(LSTM)的设计理念，通过引入门控机制解决长期依赖问题，以及GRU作为LSTM的简化版是如何运作的。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RNN(循环神经网络)

RNN示意图

$x$ 是一个向量，它表示输入层的值； $s$ 是一个向量，它表示隐藏层的值； $U$ 是输入层到隐藏层的权重矩阵； $o$ 也是一个向量，它表示输出层的值； $V$ 是隐藏层到输出层的权重矩阵。循环神经网络的隐藏层的值 $s$ 不仅仅取决于当前这次的输入 $x$ ，还取决于上一次隐藏层的值 $s$ 。权重矩阵 $W$ 就是隐藏层上一次的值作为这一次的输入的权重。

输出值 ${o}_{t}$ ，是受前面历次输入值 ${x}_{t}、{x}_{t-1}、{x}_{t-2}$ 、…影响的，这就是为什么循环神经网络可以往前看任意多个输入值的原因。
计算公式：
双向循环神经网络
- 示意图
- 计算公式：

LSTM（长短时记忆网络）

单元状态(cell state)

新增加的状态c，称为单元状态(cell state)。我们把上图按照时间维度展开：

在t时刻，LSTM的输入有三个：当前时刻网络的输入值 $x_t$ 、上一时刻LSTM的输出值 $h_{t-1}$ 、以及上一时刻的单元状态 $c_{t-1}$ ；
LSTM的输出有两个：当前时刻LSTM输出值 $h_{t}$ 、和当前时刻的单元状态 $c_{t}$ 。

用到了门（gate）的概念。门实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量。

LSTM用两个门来控制单元状态c的内容，一个是遗忘门（forget gate），它决定了上一时刻的单元状态 ${c}_{t-1}$ 有多少保留到当前时刻 ${c}_{t}$ ；另一个是输入门（input gate），它决定了当前时刻网络的输入 ${x}_{t}$ 有多少保存到单元状态 ${c}_{t}$ 。LSTM用输出门（output gate）来控制单元状态 ${c}_{t}$ 有多少输出到LSTM的当前输出值 ${h}_{t}$ 。

LSTM需要学习的参数共有8组，分别是：遗忘门的权重矩阵 ${W}_{f}$ 和偏置项 ${b}_{f}$ 、输入门的权重矩阵 ${W}_{i}$ 和偏置项 ${b}_{i}$ 、输出门的权重矩阵 ${W}_{o}$ 和偏置项 ${b}_{o}$ ，以及计算单元状态的权重矩阵 ${W}_{c}$ 和偏置项 ${b}_{c}$ 。