第七周【任务1】RNN概念&前向传播

最新推荐文章于 2025-03-04 20:08:17 发布

西风瘦马1912

最新推荐文章于 2025-03-04 20:08:17 发布

阅读量449

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习花书第7期文章标签： rnn 循环神经网络神经网络深度学习

本文链接：https://blog.youkuaiyun.com/weixin_39236489/article/details/112391777

深度学习花书第7期专栏收录该内容

22 篇文章

订阅专栏

本文介绍了循环神经网络（RNN），它用于处理序列化数据，与CNN在输入形式上有区别。文中阐述了RNN的循环图、最简单形式，详细讲解了前向传播和后向传播过程，指出RNN在GPU中难以单句并行训练，但可尝试多句并行训练以实现部分计算的并行化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

循环神经网络就是为了学习卷积神经网络中权值共享等思路，来处理序列化数据，这就造成了他们有很多类似的地方。

RNN与CNN的区别主要在输入形式上：

循环神经网络是一类用于处理序列数据的神经网络。卷积神经网络是一类用于处理网格化数据(如一个图像)的神经网络。

循环网络可以扩展到更长的序列。大多数循环网络也能处理可变长度的序列。卷积网络可以很容易地扩展到具有很大宽度和高度的图像，以及处理大小可变的图像。

循环图

展开图能够明确描述其中的计算流程。展开图还通过显式的信息流动路径帮助说明信息在时间上向前(计算输出和损失) 和向后(计算梯度)的思想

在这里插入图片描述

（图片来源：花书page321）

最简单的RNN形式

在这里插入图片描述

在左边循环图中，x是神经网络的输入，U是输入层到隐藏层之间的权重矩阵，W是记忆单元到隐藏层之间的权重矩阵，V是隐藏层到输出层之间的权重矩阵，S是隐藏层的输出，同时也是要保存到记忆单元中，并与下一时刻的一起作为输入， O是神经网络的输出。【这里的W, V, U, 和全连接网络中的参数矩阵相同。】

从左边的展开图中，可以看出，RNN每个时刻隐藏层的输出传递给下一个时刻，因此每个时刻的网络都会保留一定的来自之前时刻的历史信息，并结合当前时刻的网络状态一并再传给下一时刻。

前向传播

在这里插入图片描述

假设我们有一个1000ms长度的语音样本，内容是“早上好”。我么可以10ms取一个样本向量，那么共有100个样本向量。每一个向量进行重采样，得到160维，因此我们有一个 $100×160100\times 160$ 的矩阵， t=100.比如说t=1 to 30, 对应zao，t=31 to 70, 对应shang, t=71 to 100, 对应hao. 又假定词袋标签有6000个，那么输出O向量的维度就是 $1000×11000\times 1$ 。上图就是不同样本向量进入RNN网络进行训练的前向传播过程.

假定中间隐藏层有神经元1000个，那么 $h$ 的维度就是1000， $U$ 的维度就是 $160×1000160\times 1000$ 。因此，对于 $t = 1, 2$ , 有
$\begin{array}{ll} h_{1}=x_{1} U+b_{1} & h_{2}=x_{2} U+S_{1} W+b_{1} \\ S_{1}=f\left(h_{1}\right) & S_{2}=f\left(h_{2}\right) \\ O_{1}=S_{1} V+b_{2} & O_{2}=S_{2} V+b_{2} \end{array}$
对于 $t = t - 1, t$ ，有
$\begin{array}{ll} h_{t-1}=x_{t-1} U+S_{t-2} W+b_{1} & h_{t}=x_{t} U+S_{t-1} W+b_{1} \\ S_{t-1}=f\left(h_{t-1}\right) & S_{t}=f\left(h_{t}\right) \\ O_{t-1}=S_{t-1} V+b_{2} & O_{t}=S_{t} V+b_{2} \end{array}$
其中 $x_i$ 是维度是160的一维向量, $S_i, h_i$ 均为 $1000×11000\times 1$ 的一维向量, $O_i$ 是 $6000×16000\times 1$ 的一维向量。可见，RNN就是通过共享 $W, U, V$ 三个参数矩阵进行训练学习的。如果不做权值共享，每个时刻都有自己的矩阵，那么可见参数量会随着时间尺度增加而增加。这里的权值共享的一个优点就是减少了100倍的参数量。而且另一个优点就是能适应不同数量的序列样本集。

后向传播

对于所有的输出，我们要把所有的输出预测与标签之间的差别加和起来才能得到损失函数
$J=\sum_{i=1}^{t}\left\|O_{i}-\widetilde{O}_{i}\right\|=J_{1}+J_{2}+\cdots+J_{t}$
因此我们要针对不同的输出结点进行求导
$\frac{\partial J}{\partial o_{i}}=\frac{\partial\left(J_{1}+J_{2}+\cdots+J_{t}\right)}{\partial o_{i}}=\frac{\partial J_{i}}{\partial o_{i}}$
这里每个对输出的梯度维度都是 $6000×16000\times 1$ 。

我们可以先回忆全连接FC网络的时候，对于一个隐藏层 $y = X W$ , 我们有
$\dfrac{\partial J}{\partial X}=\dfrac{\partial J}{\partial y}W^{T}\\ \dfrac{\partial J}{\partial W}=X^{T}\dfrac{\partial J}{\partial y}$
这里也类似，我们先考虑对各个隐藏层的输入输出进行求导。对于倒数的两个时刻，有
$\begin{array}{ll} \dfrac{\partial J}{\partial S_{t}}=\dfrac{\partial J}{\partial O_{t}} V^{T} & \dfrac{\partial J}{\partial S_{t-1}}=\dfrac{\partial J}{\partial O_{t-1}} V^{T}+\dfrac{\partial J}{\partial h_{t}} W^{T} \\ \dfrac{\partial J}{\partial h_{t}}=\dfrac{\partial J}{\partial S_{t}} \dfrac{d S_{t}}{d h_{t}} & \dfrac{\partial J}{\partial h_{t-1}}=\dfrac{\partial J}{\partial S_{t-1}} \dfrac{d S_{t-1}}{d h_{t-1}} \\ \dfrac{\partial J}{\partial x_{t}}=\dfrac{\partial J}{\partial h_{t}} U^{T} \quad & \dfrac{\partial J}{\partial x_{t-1}}=\dfrac{\partial J}{\partial h_{t-1}} U^{T} \end{array}$
一直到头两个时刻
$\begin{array}{ll} \dfrac{\partial J}{\partial S_{2}}=\dfrac{\partial J}{\partial O_{2}} V^{T}+\dfrac{\partial J}{\partial h_{3}} W^{T} & \dfrac{\partial J}{\partial S_{1}}=\dfrac{\partial J}{\partial O_{1}} V^{T}+\dfrac{\partial J}{\partial h_{2}} W^{T} \\ \dfrac{\partial J}{\partial h_{2}}=\dfrac{\partial J}{\partial S_{2}} \dfrac{d S_{2}}{d h_{2}} & \dfrac{\partial J}{\partial h_{1}}=\dfrac{\partial J}{\partial S_{1}} \dfrac{d S_{1}}{d h_{1}} \\ \dfrac{\partial J}{\partial x_{2}}=\dfrac{\partial J}{\partial h_{2}} U^{T} \quad & \dfrac{\partial J}{\partial x_{1}}=\dfrac{\partial J}{\partial h_{1}} U^{T} \end{array}$
这里仍要注意, $dStdht=St(1−St)\dfrac{dS_t}{dh_t}=S_{t}(1-S_{t})$ , 或者 $1-S_{t}^{2}$

下一步就是针对参数进行求导。在RNN中，有三个参数矩阵。我们先看 $V$ ，因为RNN有多个输出 $O_{i}$ ,因此对 $,Ot)J(O_1, O_2, \cdots, O_t)$ 有
$\begin{array}{l} \dfrac{\partial J_t}{\partial V}=S_{t}^{T} \dfrac{\partial J}{\partial o_{t}} \\ \dfrac{\partial J_{t-1}}{\partial V}=S_{t-1}^{T}\dfrac{\partial J}{\partial o_{t-1}} \\ \vdots \\ \dfrac{\partial J_{1}}{\partial V}=S_{1}^{T} \frac{\partial J}{\partial o_{1}} \end{array}$
【参数矩阵在前】
$\frac{\partial J}{\partial V}=\sum_{i=1}^{t} S_{i}^{T} \frac{\partial J}{\partial o_{i}}$
类似，对于U和S有
$\frac{\partial J}{\partial U}=\sum_{i=1}^{t} x_{i}^{T} \frac{\partial J}{\partial h_{i}}\\ \frac{\partial J}{\partial W}=\sum_{i=1}^{t-1} S_{i}^{T} \frac{\partial J}{\partial h_{i+1}}$
【这里要注意，从图中可以看出，W存在于不同时刻之间，因此只有t-1项。而且从中我们也可以看出一点技巧，针对对输入输出求导，我们要看向量有几个箭头输出，比如说 $S_{t-1}$ ，它有两个箭头输出，分别指向 $O_{t-1}$ 和 $h_t$ ，因此分别考虑对这两个向量求偏导,而 $h_{t-1}, S_{t}$ 都只有一个箭头输出。针对参数求导，我们就看这个参数的箭头连接的两个向量，比如说W, 它连接的就是 $S_{i-1}$ 到 $h_{i+1}$ ,那就先对箭头末端求导，然后乘以箭头后端的向量】

因此有
$\begin{array}{l} \frac{\partial J}{\partial V}=\sum_{i=1}^{t} S_{i}^{T} \frac{\partial J}{\partial o_{i}} \\ =\left(S_{1}^{T}, S_{2}^{T}, \ldots, S_{t}^{T}\right)\left(\begin{array}{c} \frac{\partial J}{\partial o_{1}} \\ \vdots \\ \frac{\partial J}{\partial o_{t}} \end{array}\right) \end{array}$

$\begin{array}{l} \frac{\partial J}{\partial W}=\sum_{i=1}^{t-1} S_{i}^{T} \frac{\partial J}{\partial h_{i+1}} \\ =\left(S_{1}^{T}, S_{2}^{T}, \ldots, S_{t-1}^{T}\right)\left(\begin{array}{c} \frac{\partial J}{\partial h_{2}} \\ \frac{\partial J}{\partial h_{t}} \end{array}\right) \end{array}$

$\begin{array}{l} \frac{\partial J}{\partial U}=\sum_{i=1}^{t} x_{i}^{T} \frac{\partial J}{\partial h_{i}} \\ =\left(x_{1}^{T}, x_{2}^{T}, \ldots, x_{t-1}^{T}\right)\left(\begin{array}{c} \frac{\partial J}{\partial h_{1}} \\ \vdots \\ \frac{\partial J}{\partial h_{t}} \end{array}\right) \end{array}$

但是我们可以发现一个问题，除了在求对参数的梯度是矩阵乘以矩阵，可以并行，前向传播，还有对输入输出向量求导，却都是向量和矩阵的乘法，没有办法做到矩阵乘以矩阵。因此在GPU中，RNN没有办法做batch训练，发挥GPU性能。

比如说前向传播中， $S_2 = f(h_2)$ , 也就是 $S_2$ 依赖 $h_2$ , $h_2$ 依赖 $S_{1}$ ， $S_1$ 依赖 $h_1$ 也就是当 $x_2$ 输入时， $S_2$ 和 $S_{1}$ 没有办法同时算好，没有办法进行并行。

再比如，反向传播中， $h_{t-1}$ 依赖 $S_{t-1}$ ， $S_{t-1}$ 依赖 $h_{t}$ 。 $h_{t-1}$ 和 $h_{t}$ 也没有办法同时算好，没有办法进行并行。

既然一句话中，无法进行并行训练，那么我们只能尝试多句并行训练。假设 $,xtNx_{1}^{N} , x_{2}^{N} , x_{3}^{N} , \cdots, x_{t}^{N}$ 为第N句话的t个样本（以最长序列为准，不够补0），那么对于这N句话的第一个词，我们有
$\begin{array}{l} h_{1}^{1}=x_{1}^{1} U+b_{1} \\ S_{1}^{1}=f\left(h_{1}^{1}\right) \\ O_{1}^{1}=S_{1}^{1} V+b_{2} \\ h_{1}^{2}=x_{1}^{2} U+b_{1} \\ S_{1}^{2}=f\left(h_{1}^{2}\right) \\ O_{1}^{2}=S_{1}^{2} V+b_{2} \\ \ldots \\ h_{1}^{N}=x_{1}^{N} U+b_{1} \\ S_{1}^{N}=f\left(h_{1}^{N}\right) \\ O_{1}^{N}=s_{1}^{N} V+b_{2} \end{array}$
因此
$\begin{array}{c} \left(\begin{array}{c} h_{1}^{1} \\ \vdots \\ h_{1}^{N} \end{array}\right)=\left(\begin{array}{c} x_{1}^{1} \\ \vdots \\ x_{1}^{N} \end{array}\right) U+\left(\begin{array}{c} b_{1} \\ \vdots \\ b_{1} \end{array}\right) \\ \left(\begin{array}{c} S_{1}^{1} \\ \vdots \\ S_{1}^{N} \end{array}\right)=f\left(\begin{array}{c} h_{1}^{1} \\ \vdots \\ h_{1}^{N} \end{array}\right) \\ \left(\begin{array}{c} O_{1}^{1} \\ \vdots \\ O_{1}^{N} \end{array}\right)=\left(\begin{array}{c} S_{1}^{1} \\ \vdots \\ S_{1}^{N} \end{array}\right) V+\left(\begin{array}{c} b_{2} \\ \vdots \\ b_{2} \end{array}\right) \end{array}$
对 $t - 1$ 时刻，有
$\begin{aligned} &\begin{array}{l} h_{t-1}^{1}=x_{t-1}^{1} U+S_{t-2}^{1} W+b_{1} \\ S_{t-1}^{1}=f\left(h_{t-1}^{1}\right) \\ O_{t-1}^{1}=S_{t-1}^{1} V+b_{2} \\ h_{t-1}^{2}=x_{t-1}^{2} U+S_{t-2}^{2} W+b_{1} \\ S_{t-1}^{2}=f\left(h_{t-1}^{2}\right) \\ {O}_{t-1}^{2}=S_{t-1}^{2} V+b_{2} \end{array}\\ &\cdots\\ &h_{t-1}^{N}=x_{t-1}^{N} U+S_{t-2}^{N} W+b_{1}\\ &\begin{array}{l} S_{t-1}^{N}=f\left(h_{t-1}^{N}\right) \\ O_{t-1}^{N}=S_{t-1}^{N} V+b_{2} \end{array} \end{aligned}$
因此
$\begin{array}{l} \left(\begin{array}{c} h_{t-1}^{1} \\ \vdots \\ h_{t-1}^{N} \end{array}\right)=\left(\begin{array}{c} x_{t-1}^{1} \\ \vdots \\ x_{t-1}^{N} \end{array}\right) U+\left(\begin{array}{c} S_{t-2}^{1} \\ \vdots \\ S_{t-2}^{N} \end{array}\right) W+\left(\begin{array}{c} b_{1} \\ \vdots \\ b_{1} \end{array}\right) \\ \left(\begin{array}{c} S_{t-1}^{1} \\ \vdots \\ S_{t-1}^{N} \end{array}\right)=f\left(\begin{array}{c} h_{t-1}^{1} \\ \vdots \\ h_{t-1}^{N} \end{array}\right) \\ \left(\begin{array}{c} O_{t-1}^{1} \\ \vdots \\ O_{t-1}^{N} \end{array}\right)=\left(\begin{array}{c} S_{t-1}^{1} \\ \vdots \\ S_{t-1}^{N} \end{array}\right) V+\left(\begin{array}{c} b_{2} \\ \vdots \\ b_{2} \end{array}\right) \end{array}$
这样我们就可以构建针对不同句子中同一个时刻的单词（或者说样本向量）的矩阵的运算。

类似的，我们对求输入输出向量的梯度，有
$\begin{aligned} \frac{\partial J}{\partial S_{t-1}^{1}} &=\frac{\partial J}{\partial O_{t-1}^{1}} V^{T}+\frac{\partial J}{\partial h_{t}^{1}} W^{T} \\ \frac{\partial J}{\partial h_{t-1}^{1}} &=\frac{\partial J}{\partial S_{t-1}^{1}} \frac{\partial S_{t-1}^{1}}{\partial h_{t-1}^{1}} \\ \frac{\partial J}{\partial x_{t-1}^{1}} &=\frac{\partial J}{\partial h_{t-1}^{1}} U^{T} \\ & \vdots \\ \frac{\partial J}{\partial S_{t-1}^{N}} &=\frac{\partial J}{\partial O_{t-1}^{N}} V^{T}+\frac{\partial J}{\partial h_{t}^{N}} W^{T} \\ \frac{\partial J}{\partial h_{t-1}^{N}} &=\frac{\partial J}{\partial S_{t-1}^{N}} \frac{\partial S_{t-1}^{N}}{\partial h_{t-1}^{N}} \\ \frac{\partial J}{\partial x_{t-1}^{N}} &=\frac{\partial J}{\partial h_{t-1}^{N}} U^{T} \end{aligned}$
因此
$\left(\begin{array}{c} \dfrac{\partial J}{\partial S_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial S_{t-1}^{N}} \end{array}\right)=\left(\begin{array}{c} \dfrac{\partial J}{\partial O_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial O_{t-1}^{N}} \end{array}\right) V^{T}+\left(\begin{array}{c} \dfrac{\partial J}{\partial h_{t}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial h_{t}^{N}} \end{array}\right) W^{T}$

$\left(\begin{array}{c} \dfrac{\partial J}{\partial h_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial h_{t-1}^{N}} \end{array}\right)=\left(\begin{array}{c} \dfrac{\partial J}{\partial S_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial S_{t-1}^{N}} \end{array}\right) \odot\left(\begin{array}{c} \dfrac{\partial S_{t-1}^{1}}{\partial h_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial S_{t-1}^{N}}{\partial h_{t-1}^{N}} \end{array}\right)$

$\left(\begin{array}{c} \dfrac{\partial J}{\partial x_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial x_{t-1}^{N}} \end{array}\right)=\left(\begin{array}{c} \dfrac{\partial J}{\partial h_{t-1}^{1}} \\ \vdots \\ \dfrac{\partial J}{\partial h_{t-1}^{N}} \end{array}\right) U^{T}$