通过时间的方向传播（Backpropagation through time）

最新推荐文章于 2025-06-21 12:20:18 发布

原创最新推荐文章于 2025-06-21 12:20:18 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #人工智能 #机器学习 #神经网络

笔记同时被 3 个专栏收录

165 篇文章

订阅专栏

吴恩达深度学习笔记

92 篇文章

订阅专栏

深度学习知识点储备

68 篇文章

订阅专栏

本文介绍了在循环神经网络中如何运用反向传播算法，并详细解释了该算法在时间维度上的应用，即“穿越时间反向传播”，这对于理解循环神经网络的工作原理至关重要。

来源：Coursera吴恩达深度学习课程

之前我们已经学过了循环神经网络的基础结构，在本节文章中我们将来了解反向传播（back propagation）是怎样在循环神经网络中运行的，它还有个很别致的名字：叫做“通过（穿越）时间反向传播（backpropagation through time）”。。和之前一样，当你在编程框架中实现循环神经网络时，编程框架通常会自动处理反向传播。Andrew认为，在循环神经网络中，对反向传播的运行有一个粗略的认识还是非常有用的，让我们来一探究竟。

对于前向传播（上图蓝色箭头所指方向）怎样在神经网络中从左到右地计算这些激活项，直到输出所有的预测结果。而对于反向传播（上图红色箭头所指方向），计算方向与前向传播基本上是相反的。

如上图，我们分析一下前向传播（forward propagation）的计算，现在有一个输入（input）序列，x^<1>,x^<2>,...,x^，为了计算出a^<1>，还需要参数W_a和b_a，所有的这些激活项都要取决于参数W_a和b_a，接着使用参数W_y和b_y可以计算出第一个预测值y帽^<1>。（参数如上图绿色标记）

为了计算反向传播，还需要一个损失函数。我们先定义一个元素的损失函数：

我们将它定义为标准逻辑回归损失函数，也叫交叉熵损失函数（Cross Entropy Loss）。这是关于单个位置上或者说某个时间步t上某个单词的预测值的损失函数。

现在我们来定义整个序列的损失函数，通过将每一个单独时间步的顺势函数加起来，将L定义为

上图就是完整的计算图（computation graph），反向传播算法需要在相反的方向上进行计算和传递信息（红色标记）。最终把前向传播的箭头都反过来，就可以计算出所有合适的量，然后通过导数相关的参数，用梯度下降法（gradient descent）来更新参数。

在这个反向传播的过程中，最重要的信息传递或者说最重要的递归运算就是这个从右到左的运算（红色圆圈标记），这个算法有一个很别致的名字，叫做“通过（穿越）时间反向传播（backpropagation through time）”。取这个名字的原因是对于前向传播，你需要从左到右进行计算，在这个过程中，时间t不断增加。而对于反向传播，你需要从右到左进行计算，就像时间倒流。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。