《神经网络与深度学习》-循环神经网络

最新推荐文章于 2025-04-08 17:37:13 发布

原创

最新推荐文章于 2025-04-08 17:37:13 发布 · 811 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习

循环神经网络

全前馈神经网络，信息单向传递，网络易学习，但能力被减弱。网络输出只依赖于当前的输入。输入输出维数固定。
循环神经网络，具有 短期记忆能力。其中的神经元可接收 其他神经元的信息和本身的信息。输入输出可不固定。参数学习可通过 随时间反向传播算法学习。输入序列较长时，错误信息向前传递过长，存在 梯度爆炸和 梯度消失问题，即 长程依赖问题，一种有效的改进方式： 门控机制。
循环神经网络易拓展到更广义的记忆网络模型： 递归神经网络、 图网络。

1. 给网络增加记忆能力

时序数据处理需要历史信息。前馈网络无记忆能力。介绍三种方法给网络增加记忆能力。

1.1 延时神经网络

延时神经网络通过在前馈网络的非输出层中都添加一个延时器，记录神经元的最近几次活性值，增加前馈网络的短期记忆能力。在 $t$ 时刻，第 $l$ 层神经元的活性值依赖于第 $l - 1$ 层神经元的最近 $K$ 个时刻的活性值：

$\pmb{h}_t^{(l)} = f(\pmb{h}_t^{(l-1)},\pmb{h}_{t-1}^{(l-1)},\cdot\cdot\cdot,\pmb{h}_{t-K}^{(l-1)})$

其中 $\pmb{h}_t^{(l)} \in \mathbb{R}^{ \pmb{M}_l }$ 表示第 $l$ 层神经元在时刻 $t$ 的活性值， $M_l$ 为第 $l$ 层神经元的数量。前馈神经网络的活性值：

$\pmb{a}^{(l)} = f_l(\pmb{W}^{(l)}\pmb{a}^{(l-1)} + \pmb{b}^{(l)})$

1.2 有外部输入的非线性自回归模型

自回归模型 （AutoRegressive Model，AR）统计学上的时间序列模型，用一个变量 $\pmb{y}_t$ 的历史信息来预测自己：

$\pmb{y}_t = w_0 + \sum_{k=1}^K w_k \pmb{y}_{t-k} + \epsilon_t$

其中 $K$ 为超参数， $w_0, \cdot\cdot\cdot, w_K$ 为可学习参数， $\epsilon_t$ ~ $\sigma^2)$ 为第 $t$ 个时刻的噪声，方差 $\sigma^2$ 与时间无关。

有外部输入的自回归模型 （Nonlinear AutoRegressive with Exogenous Inputs Model，NARX），在每个时刻 $t$ 都有一个外部输入 $\pmb{x}_t$ , 产生一个输出 $\pmb{y}_t$ , NARX 通过一个延时器记录最近 $K_x$ 次的外部输入和最近 $K_y$ 次的输出，第 $t$ 个时刻的输出 $\pmb{y}_t$ 为:

$\pmb{y}_t = f(\pmb{x}_t,\pmb{x}_{t-1},\cdot\cdot\cdot,\pmb{x}_{t-K_x}, \pmb{y}_{t-1},\pmb{y}_{t-2},\cdot\cdot\cdot,\pmb{y}_{t-K_y})$

其中 $f(\cdot)$ 表示非线性函数，可以前馈网络， $K_x$ 和 $K_y$ 为超参数。

1.3 循环神经网络

循环神经网络 （Recurrent Neural Network，RNN）通过使用带自反馈的神经元处理任意长度的时序数据。
给定输入序列 $\pmb{x}_{1:T} = (\pmb{x_1}, \pmb{x_2}, ... ,\pmb{x_t}, ..., \pmb{x_T})$ ，RNN 这样更新带反馈边的隐藏层的活性值 $\pmb{h}_t$ ：

$\pmb{h}_t = f(\pmb{h}_{t-1}, \pmb{x}_t)$

其中 $\pmb{h}_0 = 0$ ， $f(\cdot)$ 为非线性函数。可谓前馈网络。从数学上来说，该公式可看成动力系统，故隐藏层活性值 $\pmb{h}_t$ 又被成为状态（State）或隐状态（Hidden State）。
在这里插入图片描述

2. 简单循环网络

简单循环网络(SRN)只有一个隐藏层。在一个两层的前馈神经网络中，连接存在相邻的层与层之间，隐藏层的节点之间无连接。简单循环网络增加了隐藏层到隐藏层的反馈连接。

假设向量 $\pmb{x}_t \in \mathbb{R}^M$ 表示在时刻 $t$ 时网络的输入， $\pmb{h}_t \in \mathbb{D}^M$ 表示隐藏层状态（隐藏层神经元活性值）， $\pmb{h}_t$ 和当前时刻输入 $\pmb{x}_t$ 、上一时刻隐藏层状态 $\pmb{h}_{t-1}$ 相关。 SRN在t时刻更新公式为：
在这里插入图片描述

其中 $\pmb{z}_t$ 为隐藏层的净输入， $\pmb{U} \in \mathbb{R}^{D \times D}$ 是状态-状态权重矩阵， $\pmb{W} \in \mathbb{R}^{D \times D}$ 是状态-输入权重矩阵， $\pmb{b} \in \mathbb{R}^{D}$ 是偏移向量，其中 $f(\cdot)$ 表示非线性函数，常为Logistic函数或Tanh函数。
若把每个时刻的状态都看做前馈神经网络的一层，循环神经网络可看做在时间维度上权值共享的神经网络。按时间展开的循环神经网络：
在这里插入图片描述

2.1 循环神经网络的计算能力

前馈神经网络可以模拟任何连续函数，而循环神经网络可以模拟任何程序。定义一个完全连接的循环神经网络。 $\pmb{x}_t$ 为输入， $\pmb{y}_t$ 为输出， $\pmb{h}_t$ 为隐状态， $f(\cdot)$ 为非线性激活函数， $\pmb{U}$ 、 $\pmb{W}$ 、 $\pmb{b}$ 、 $\pmb{V}$ 为网络参数：
在这里插入图片描述