RNN训练与BP算法

最新推荐文章于 2025-07-14 22:27:21 发布

kingsam_

最新推荐文章于 2025-07-14 22:27:21 发布

阅读量6.9k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习理论学习机器学习文章标签： RNN BP 训练推导

本文链接：https://blog.youkuaiyun.com/qq_22238533/article/details/79079898

本文详细介绍了RNN在训练过程中BP算法的推导，强调了RNN的时序性对隐藏层误差信号处理的影响。通过数学推导得出隐藏层和输出层的误差信号，揭示了RNN如何积累和传递误差，从而体现出其记忆能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

本文主要讲述的RNN（循环神经网络）在训练过程中BP算法的推导。
在阅读本文之前希望读者看过我的另一篇文章BP算法心得体会。因为大部分的思路沿用的就是这篇文章的思路。
参考文章：
数学推导-1
数学推导-2

更新-2018-01-23：
之前写完这篇文章之后，回头看了一遍文章，发现在整个推导的过程都无视了时间维度的存在，所以后来查阅了相关的资料，发现目前网上有一部分RNN的推导过程和本文是一样的，比如上面给到的2篇参考文章，思路和本文是一致的。但是也存在另外一些版本的推导，其过程和本文的截然不同。
所以后来在参考了大神的代码后，重新思考了rnn的训练算法，因此重新写一个篇rnn和bptt供大家参考。

正文

RNN的一般原理介绍这里就不再重复了，本文关注的是RNN是如何利用BP算法来进行训练的。

推导

在推导BP算法之前，我们先做一些变量上的规定，这一步非常关键。
本文使用的RNN是只含一个隐藏层（多个隐藏层其实也是一样的道理）。其结构如下图所示：
这里写图片描述
（大家看到这个网络结构可能有些困惑，比如说，RNN是由多个网络组成的吗？这里值得注意的是，RNN就只由一个网络组成，图上有多个网络是在不同时刻的输入下的网络情况）
现在，作如下的一些规定：
$v_{im}$ 是输入层第 $m$ 个输入与隐藏层中第 $i$ 个神经元所连接的权重。
$u_{in}$ 是隐层自循环的权重（具体表现为上面结构图中那些紫色、绿色的线）
$w_{km}$ 是隐藏层中第m个神经元与输出层第k个神经元连接的权重。
网络中共有 $N_{(i)}个输入单元$ ， $N_{(h)}个隐藏层$ ， $N_{(o)}个输出单元$

$net_{hi}^{t}$ 表示隐藏层第 $i$ 个神经元在 $t$ 时刻激活前的输入。
具体为： $net_{hi}^{t}=\sum_{m=1}^{N_{(i)}}(v_{im}x_m^{t})+\sum_{s=1}^{N_{(h)}}(u_{is}h_s^{t-1})$
经过激活后的输出为： $h_i^{t}=f(net_{hi}^{t})$

$net_{yk}^{t}$ 表示输出层第 $k$ 个神经元在 $t$ 时刻激活前的输入。
具体为： $net_{yk}^{t}=\sum_{m=1}^{N_{(h)}}(w_{km}h_m^{t})$
经过激活后的输出为： $o_k^{t}=f(net_{yk}^{t})$

这里同样地，为了方便推导，假设损失函数 $E_t =0.5*\sum_{k=1}^{N(o)}(o_k^{t}-t_k^{t})^2$ （本文也会说明使用其他损失函数的情况）
$E=\sum_{t=1}^{step}E_t$
首先我们需要解决的问题就是求出：
$\left.\frac{\partial E}{\partial u_{in}}\right.$ ， $\left.\frac{\partial E}{\partial w_{km}}\right.$ ， $\left.\frac{\partial E}{\partial v_{im}}\right.$ 。

1.先来求最简单的 $\left.\frac{\partial E}{\partial w_{km}}\right.$ ：
和之前讲解BP的文章套路一样，我们可以对 $\left.\frac{\partial E}{\partial w_{km}}\right.$ 使用链式法则，具体如下：
∂E∂wkm=∂E∂nettyk∗∂nettyk∂wkm