在 反向传播算法理解 一文中,大体讲了反向传播算法的大体思想和优势,这篇文章拿最简单的RNN网络推导反向传播算法。
计算图和计算公式
我们拿最具代表性的如下RNN网络图简单推导。
上图是一张计算图。为方便公式推导,我们把公式写出来。对于每一步 t ,都是如下的计算过程。
每一步的损失函数,总的损失函数 L 如下:
在每一步 t 中, 是向量形式变量,
是向量形式变量,
是向量形式变量,
是向量形式变量,
是向量形式变量;W 是矩阵形式变量,V 是矩阵形式变量,U 是矩阵形式变量(注意下,在每一步 t 中,W、V、U、b、c都是一样的);
是一个实数值变量。
每一步的相加得到的最终的 L 是一个实数值变量。
其中:参数矩阵变量是 W、V、U。截距变量是 b 、c。
反向传播算法推导
有了上边的基础,我们就可以开始推导啦,在推导之前,我们先熟悉下涉及到的 tanh函数。
tanh函数: