深度学习——循环神经网络RNN（一）_反向传播算法

最新推荐文章于 2025-07-09 14:51:50 发布

原创

最新推荐文章于 2025-07-09 14:51:50 发布 · 5.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #rnn

RNN网络结构

Elman神经网络是最早的循环神经网络，由Elman于1990年提出，又称为SRN（Simple Recurrent Network, 简单循环网络）。RNN考虑了时序信息，当前时刻的输出不仅和当前时刻的输入有关，还和前面所有时刻的输入有关。

RNN的结构图（引用[2]中的图）如下：

$x_t$ 表示t时刻的输入向量；
$h_t$ 表示t时刻的隐藏层向量：
隐层计算公式为

$h t = f (W h h h t - 1 + W x h x t + b h) (1)$ $\boldsymbol h_t = f(W^{hh}\boldsymbol h_{t-1}+W^{xh}\boldsymbol x_t+\boldsymbol b^h) \tag 1$
f是隐层的激活函数。 $h_0$ 一般初始化为0。
我们可以认为 $\boldsymbol h_t$ 包含了当前时刻及以前的所有记忆。虽然理论上这句话没问题，但是在实际中，由于梯度消失/爆炸问题的存在， $\boldsymbol h_t$ 只包含了有限步的信息，并不能捕获太久之前的信息。这被称为长时依赖问题。
$y_t$ 表示t时刻的输出向量：
输出 $y_t$ 的计算公式为

$y t = g (W h y h t + b y) (2)$ $\boldsymbol y_t = g(\boldsymbol W^{hy}\boldsymbol h_{t}+\boldsymbol b^y ) \tag 2$
g一般为softmax函数。

在训练RNN时，一个输入序列看做一个实例，其误差由各时刻误差之和组成：

J = \sum t = 1 T J t (3)

$J=\sum_{t=1}^TJ_{t} \tag 3$

梯度计算

RNN的梯度计算比多层前馈神经网络要复杂一些，其反向传播算法有个特有的名字：随时间反向传播算法（Backpropagation Through Time，BPTT）[Werbos, 1990]。

这里会介绍两种计算RNN梯度的方法，并且仅以 $W^{hh}$ 的梯度为例进行说明。

暴力求解

这里写图片描述

我们暂且把t步的 $W^{hh}$ 写成 $W^{hh}_t$ ，于是：

\partial J \partial W h h = \sum t = 1 T \partial J \partial W h h t = \sum t = 1 T

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。