深度学习中基本神经网络(二)

最新推荐文章于 2025-06-18 11:37:40 发布

原创

最新推荐文章于 2025-06-18 11:37:40 发布 · 1.7k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #自然语言处理

深度学习中的循环神经网络

1. 循环神经网络的引入与简介
- 1.1 延时神经网络
- 1.2 同步学习模式和异步学习模式
2. 梯度训练BPTT算法与RTRL算法
- 2.1 BPTT算法
- 2.2 RTRL算法
3. 常见的循环神经网络及其变体
4. 双向(Bidirectional)循环神经网络和多层(MultiLayers)神经网络。
- 4.1 双向循环神经网络
- 4.2 多层循环神经网络
5. 应用举例(用theano和pytorch实现循环神经网络)
- 5.1 实验设计
- 5.2 实验训练和结果分析
小结
参考文献

1. 循环神经网络的引入与简介

在前馈神经网络中，信息的传递是单向传递过程，这种学习方法使得网络很容易学习，但是也一定程度上限制了神经网络模型的学习能力。但是在很多任务中，存在一些网络的输入不仅和当前的输入有关系，也和网络的历史输入信息有关系，例如有限状态的自动机。时序数据的长度序列长度不是固定的，不可任意改变。循环神经网络在一定程度上解决了这一类问题，它是一种具有短期记忆能力的神经网络，广泛使用到语音识别、语言模型以及其他自然语言处理等等任务上。循环神经网络中的参数学习过程使用到随时间反向传播算法来进行学习。但是普通的神经网络学习过程中的长期依赖关系，会出现梯度爆炸和消失问题，对这个问题提出了LSTM，GRU以及能够使得循环神经网络加速的SRU神经网络。另外，循环神经网络很容易推广到广义上的记忆型神经网络：递归神经网络和图神经网络，当然也包含树形神经网络。

1.1 延时神经网络

延时神经网络中通过建立一个额外的延时单元来存储网络的历史信息(例如输入、输出、隐藏层状态信息等等)。延时神经网络中在 $t$ 时刻，第 $l + 1$ 层神经网络和第 $l$ 层神经元的最近 $p$ 次输出相关，即
$h_{t}^{(l+1)}=f(h_{t}^{(l)},h_{t-1}^{(l)},...,h_{t-p}^{(l)})$

这样对网络中输入和输出进行延时和神经元存储处理，神经网络就有了短期的记忆能力。

一般情况下函数 $f (.)$ 是一种自回归模型，用变量 $y_{t}$ 的历史信息来预测自己的输出信息：
$y_{t}=w_{0}+\sum\limits_{t=1}^{p}w_{i}y_{t-i}+b_{t}$

这是一种不包含输入信息的一种递归神经网络，下面是一种有外部输入的非线性自回归模型：
$y_{t}=f(x_{t},x_{t-1},...,x_{t-p},y_{t-1},y_{t-2},...,y_{t-p})$

1.2 同步学习模式和异步学习模式

同步的序列到序列模式主要使用序列标注任务，每一时刻都有输入和输出，输入的序列和输出序列的长度相同。例如对单词尽心词性标注的任务就必须对每一个单词进行标注处理。设输入为 $x_{1:T}=\{x_{1},...,x_{T}\}$ ，输出为 $\hat y_{1:T}\{\hat y_{1},...,\hat y_{T}\}$ ，通常模型表达为
$h_{t}=f(h_{t-1},x_{t})$

$\hat y_{t}=g(h_{t})$

异步的序列到序列模式也称作编码器-解码器模型，输入序列和输出序列不需要有严格的对应关系，也没必要保持有相同的长度信息。例如机器翻译中自然语言处理任务。设输入的序列为 $x_{1:T}=\{x_{1},...,x_{T}\}$ ，输出序列为 $\hat y_{1:M}=\{\hat y_{1},...,\hat y_{M}\}$ ，那么通常模型表达为
$h_{t}=f_{1}(h_{t-1},x_{t}),\forall{t}\in{[1,T]}$

$h_{T+t}=f_{2}(h_{T+t-1}),\forall{t}\in{[1,M]}$

$\hat y_{t}=g(h_{T+t}),\forall{t}\in{[1,M]}$

2. 梯度训练BPTT算法与RTRL算法

在循环神经网络中，梯度更新的方法主要有随时间反向传播算法和实时循环学习方法。给定一个训练样本 $(x, y)$ ，其中 $x_{1:T}=(x_{1},...,x_{T})$ 为长度是 $T$ 的输入序列， $y_{1,T}=(y_{1},...,y_{T})$ 为长度为 $T$ 的标签序列。我们定义时刻 $t$ 的损失函数为
$L_{t}=L(y_{t},g(h_{t}))$

其中 $g(h_{t})$ 为 $t$ 时刻的输出， $L$ 为可微分的损失函数。那么整个序列的损失函数为
$L=\sum\limits_{t=1}^{T}L_{t}$

所以说，整个序列的损失函数 $L$ 关于参数 $U$ 的梯度为
$\frac{\partial L}{\partial U}=\sum\limits_{t=1}^{T}\frac{\partial L_{t}}{\partial U}$

所以通过这样可以进行梯度的传播。

2.1 BPTT算法

随时间反向传播算法中，主要计算上面偏导数 $\frac{\partial L}{\partial U}$ 。

参数 $U$ 和隐藏层在每个时刻 $k(1\leq k\leq t)$ 的净输入 $z_{k}=Uh_{k-1}+Wx_{k}+b$ ，所以说第 $t$ 时刻的损失函数 $L_{t}$ 关于参数 $u_{ij}$ 的梯度为
$\frac{\partial L_{t}}{\partial u_{ij}}=\sum\limits_{k=1}^{t}\frac{\partial z_{k}}{\partial u_{ij}}\cdot{\frac{\partial L_{t}}{\partial z_{k}}}$

注意，这里的 $\frac{\partial z_{k}}{\partial u_{ij}}$ 指的是直接的偏导数，即对于公式 $z_{k}=Uh_{k-1}+Wx_{k}+b$ 中，把 $h_{k-1}$ 作为常量来对其求偏导数。所以有以下求法
$\frac{\partial z_{k}}{\partial u_{ij}}=[0,...,[h_{k-1}]_{j},..,0]=\mathbb{I}_{i}([h_{k-1}]_{j})$

其中 $h_{k-1}]_{j}$ 为第 $k - 1$ 时刻的隐藏层状态的第 $j$ 维， $\mathbb{I}_{i}(x)$ 指的是除了第 $i$ 行值为 $x$ 外，其余为 $0$ 的行向量。

定义误差项 $\delta_{t,k}=\frac{\partial L_{t}}{\partial z_{k}}$ 是第 $t$ 时刻的损失对第 $k$ 时刻隐藏层的净输入 $z_{k}$ 的导数，则当 $1\leq k\leq t$ 时
$\delta_{t,k}=\frac{\partial L_{t}}{\partial z_{k}}=\frac{\partial h_{k}}{\partial z_{k}}\cdot{\frac{\partial z_{k+1}}{\partial h_{k}}}\cdot{\frac{\partial L_{t}}{\partial z_{k+1}}}\\ =\text{diag}(f^{'}(z_{k}))U^{T}\delta_{t,k+1}\\ =f^{'}(z_{k})\odot(U^{T}\delta_{t,k+1})$
所以我们得到
$\frac{\partial z_{k}}{\partial u_{ij}}=\sum\limits_{k=1}^{t}[\delta_{t,k}]_{i}[h_{k-1}]_{j}$

写成矩阵的形式为

$\frac{\partial L_{t}}{\partial U}=\sum\limits_{k=1}^{t}\delta_{t,k}h_{k-1}^{T}$

最后得到整个序列的梯度更新公式：
$\frac{\partial L}{\partial U}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}h_{k-1}^{T}$

同理得到
$\frac{\partial L}{\partial W}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}x_{k}^{T}$

$\frac{\partial L}{\partial b}=\sum\limits_{t=1}^{T}\sum_{k=1}^{t}\delta_{t,k}$

2.2 RTRL算法

反向传播中的BPTT算法不同的是，实时循环学习是通过前向传播的方式来进行梯度计算。
设循环神经网络中第 $t + 1$ 时刻的状态 $h_{t+1}$ 为
$h_{t+1}=f(z_{t+1})=f(Uh_{t}+Wx_{t+1}+b)$

则有以下的表达式
$\frac{\partial h_{t+1}}{\partial u_{ij}}=(\frac{\partial z_{t+1}}{\partial u_{ij}}+\frac{\partial h_{t}}{\partial u_{ij}}U^{T})\frac{\partial h_{t+1}}{\partial z_{t+1}}\\ =(\mathbb{I}_{i}([h_{t}]_{j})+\frac{\partial h_{t}}{\partial u_{ij}}U^{T})\text{diag}(f^{'}(z_{t+1}))\\ =(\mathbb{I}_{i}([h_{t}]_{j})+\frac{\partial h_{t}}{\partial u_{ij}}U^{T})\odot(f^{'}(z_{t+1}))^{T}$

其中 $\mathbb{I}_{i}(x)$ 是除了第 $i$ 行值为 $x$ 之外，其余都为 $0$ 的行向量。
所以在实时循环学习中，通过迭代递归的方法来进行参数的学习。

这两种算法都是基于梯度下降算法，分别通过前向方法和反向方法应用链式法则来计算梯度。循环神经网络中，一般网络输出的维度远低于输入的维度，故而BPTT算法的计算量会更小，但是在BPTT算法中需要保存所有时刻的中间梯度，空间复杂度比较高。RTRL算法不需要梯度回传，适合于在线学习或者无限序列的任务当中。

3. 常见的循环神经网络及其变体

作为递归神经网络的循环神经网络，其中有各种各样的神经网络。其中最为代表性的有RNN、LSTM、GRU等循环神经网络。这里我们先介绍同步学习的方法，即输入长度和输出长度一致，在梯度更新中我们使用BPTT算法。假设输入变量 $x_{1:T}=\{x_{1},...,x_{T}\}$ ，标签向量 $y_{1:T}=\{\hat y_{1},...,\hat y_{T}\}$ 。RNN中最大的一个特点是，神经网络的偏置和权重值是共享的，接下来会介绍各种神经网络的原理及其应用。