RNN前向传播、反向传播与并行计算(非常详细)

最新推荐文章于 2024-10-08 20:31:52 发布

原创最新推荐文章于 2024-10-08 20:31:52 发布 · 3.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#RNN #神经网络 #反向传播 #RNN并行 #双向RNN

深度学习同时被 2 个专栏收录

6 篇文章

订阅专栏

循环神经网络

2 篇文章

订阅专栏

本文深入解析了RNN的前向与反向传播机制，对比了RNN与CNN在处理序列数据上的区别，详细介绍了RNN的并行加速计算方法，包括前向和反向并行运算，以及双向RNN和DeepRNN的概念。

1. RNN前向传播

在介绍RNN之前，首先比较一下RNN与CNN的区别：

RNN是一类用于处理序列数据的神经网络，CNN是一类用于处理网格化数据(如一幅图像)的神经网络。
RNN可以扩展到更长的序列，大多数RNN也能处理可变长度的序列。CNN可以很容易地扩展到具有很大宽度和高度的图像，并且可以处理可变大小的图像。

[外链图片转存失败(img-sEvsXPZN-1568360613787)(./images/RNN-前向.jpg)]
RNN的前向传播如图所示，其中 $f (x)$ 代表激活函数，输出的label可以使用one-hot形式。图中所有的 $U、W、V、b_1、b_2$ 全部相同，类似于CNN中的权值共享。CNN通过权值共享可以处理任意大小的图片，RNN通过权值共享，可以处理任意序列长度的语音、句子。

损失函数：
$J=∑i=1t∣∣oi−o^i∣∣2=J1+J2+...+Jt（Ji为MSE损失或CE损失） J=\sum_{i=1}^{t}||o_i-\hat{o}_i||^2=J_1+J_2+...+J_t（J_i为MSE损失或CE损失）$

2.RNN反向传播

在介绍RNN反向传播之前，先回顾一下基本神经元的反向传播算法：
[外链图片转存失败(img-ZWqPXKqE-1568360613788)(./images/base.png)]
$\begin{array}{l}\left\{ \begin{matrix} h=&WX+b\\ S=&f(h) \end{matrix}\right. \end{array}$
假设已知损失对 $S$ 的梯度 $∂J∂S\frac{\partial J}{\partial S}$ :
$\begin{array}{l}\left\{ \begin{matrix} \frac{\partial J}{\partial h}=\frac{\partial J}{\partial S}\frac{d S}{d h}\\\\ \frac{\partial J}{\partial X}=\frac{\partial J}{\partial h}W^T\\ \\ \frac{\partial J}{\partial W}=X^T\frac{\partial J}{\partial h}\\ \\ \frac{\partial J}{\partial b}=SumCol(\frac{\partial J}{\partial h}) \end{matrix}\right. \end{array}$
具体推导过程请参考：https://zhuanlan.zhihu.com/p/79657669

下面介绍RNN的反向传播，如图所示：
[外链图片转存失败(img-M9I1CVlS-1568360613789)(./images/RNN_bp1.png)]
[外链图片转存失败(img-5dJgmaAG-1568360613789)(./images/RNN_bp2.png)] [外链图片转存失败(img-Y14YeoM7-1568360613790)(./images/RNN_bp3.jpg)]
因为共享权重，所以整个RNN网络对 $V 、 W 、 U$ 的梯度为:
$\frac{\partial J}{\partial V}=\sum_{i=1}^{t} s_{i}^{T} \frac{\partial J}{\partial o_{i}}; \quad \frac{\partial J}{\partial W}=\sum_{i=1}^{t-1} s_{i}^{T} \frac{\partial J}{\partial h_{i+1}}; \quad \frac{\partial J}{\partial U}=\sum_{i=1}^{t} x_{i}^{T} \frac{\partial J}{\partial h_{i}}$