DNN中的BP和RNN中的BPTT推导

最新推荐文章于 2021-10-18 21:01:39 发布

原创

最新推荐文章于 2021-10-18 21:01:39 发布 · 2.9k 阅读

5 ·

CC 4.0 BY-SA版权

本文介绍了深度神经网络（DNN）中的反向传播（BP）算法，详细阐述了BP的推导过程，以及如何通过BP算法计算权重矩阵和偏置的梯度。随后，文章探讨了循环神经网络（RNN）中的随时间反向传播（BPTT），解释了BPTT如何处理RNN的时间序列特性，并给出了BPTT的梯度计算公式。

1.5、BP和BPTT

参考博客：http://www.cnblogs.com/pinard/p/6509630.html

1、反向传播算法（Backpropagation）

反向传播算法要解决的问题

深层神经网络（Deep Neural Network，DNN)由输入层、多个隐藏层和输出层组成，任务分为分类和回归两大类别。如果我们使用深层神经网络做了一个预测任务，预测输出为 $\tilde{y}$ ，真实的为y，这时候就需要定义一个损失函数来评价预测任务的性能，接着进行损失函数的迭代优化使其达到最小值，并得到此时的权重矩阵和偏置值。在神经网络中一般利用梯度下降法（Gradient Descent）迭代求解损失函数的最小值。在深层神经网络中使用梯度下降法迭代优化损失函数使其达到最小值的算法就称为反向传播算法（Back Propagation，BP）。

反向传播算法的推导过程

假设深层网络第L层的输出为 $a_{L}$ :
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ a^{L} &= \sig…$
定义损失函数 $J (w, b, x, y)$ 为：
$KaTeX parse error: No such environment: split at position 7: \begin{̲s̲p̲l̲i̲t̲}̲ J(w,b,x,y) &= …$
注解： $a_{L}$ 为预测输出, $y$ 为实际值，二者具有相同的维度。 $\parallel \cdot \parallel_{2}$ 代表二范数。
对损失函数运用梯度下降法迭代求最小值，分别求解对于权重矩阵 $W^{L}$ 和偏置 $b^{L}$ 的梯度。