循环神经网络（RNN）解惑

最新推荐文章于 2025-12-03 08:43:36 发布

原创最新推荐文章于 2025-12-03 08:43:36 发布 · 824 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#rnn #人工智能 #深度学习

继续深度学习专栏收录该内容

12 篇文章

订阅专栏

由来

传统的神经网络模型是从输入层到隐含层再到输出层的全连接，且同层的节点之间是无连接，网络的传播也是顺序的
但这种普通的网络结构对于许多问题却显得无能为力。例如，在自然语言处理中，如果要预测下一个单词，就需要知道前面的部分单词，因为一个句子中的单词之间是相互联系的，即有语义。这就需要一种新的神经网络，即循环神经网络RNN
循环神经网络对于序列化的数据有很强的模型拟合能力。
具体的结构为：循环神经网络在隐含层会对之前的信息进行存储记忆，然后输入到当前计算的隐含层单元中，也就是隐含层的内部节点不再是相互独立的，而是互相有消息传递。
隐含层的输入不仅可以由两部分组成，输入层的输出和隐含层上一时刻的输出，即隐含层内的节点自连；
隐含层的输入还可以由三部分组成，输入层的输出、隐含层上一时刻的输出、上一隐含层的状态，即隐含层内的节点不仅自连还互连。

图解

x：输入序列的单个时间步特征；
s：隐藏状态（RNN 的 “记忆单元”）；
o：输出；
(U、V、W)：权重参数（整个 RNN 共享同一套参数，这是 RNN 的核心特性之一）

以图中 t-1 $→\to$ t $→\to$ t+1 的链式结构为例

初始状态 (t=0）：设置初始隐藏状态 $s_0$ （通常为全 0 向量）；
时间步 t-1：
- 输入 $x_{t-1}$ ，结合 $s_0$ 计算 $st−1=tanh⁡(U⋅xt−1+W⋅s0+bs)s_{t-1} = \tanh(U \cdot x_{t-1} + W \cdot s_0 + b_s)$ ；
- 计算输出 $ot−1=V⋅st−1+boo_{t-1} = V \cdot s_{t-1} + b_o$ ；
时间步 t：
- 输入 $x_t$ ，结合 $s_{t-1}$ 计算 $st=tanh⁡(U⋅xt+W⋅st−1+bs)s_t = \tanh(U \cdot x_t + W \cdot s_{t-1} + b_s)$ ；
- 计算输出 $ot=V⋅st+boo_t = V \cdot s_t + b_o$ ；
时间步 t+1：
- 输入 $x_{t+1}$ ，结合 $s_t$ 计算 $st+1=tanh⁡(U⋅xt+1+W⋅st+bs)s_{t+1} = \tanh(U \cdot x_{t+1} + W \cdot s_t + b_s)$ ；
- 计算输出 $ot+1=V⋅st+1+boo_{t+1} = V \cdot s_{t+1} + b_o$ ；
后续时间步：重复上述步骤，直到序列的最后一个时间步 T。

关键特性：参数共享与时序依赖

计算思路体现了 RNN 的两个核心特性：
- 参数共享：所有时间步共用同一套 (U、V、W) 权重，大幅减少了参数数量（对比 “每个时间步单独设计网络” 的方案）；
- 时序依赖：每个时间步的隐藏状态 $s_t$ 包含了 $x_1$ 到 $x_t$ 的所有时序信息，因此 RNN 能捕捉序列中 “当前元素与历史元素的关联”。