深度学习之循环神经网络（3）梯度传播-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43360025/article/details/120608666

本文详细推导了循环神经网络(RNN)的梯度传播公式，展示了Whh权重矩阵的连乘对训练难度的影响。重点在于链式法则的应用和∂ht/∂hi的计算，揭示了RNN中梯度消失/爆炸问题的根源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习之循环神经网络（3）梯度传播

通过循环神经网络的更新表达式可以看出输出对张量 $\boldsymbol W_{xh}$ 、 $\boldsymbol W_{hh}$ 和偏置 $\boldsymbol b$ 均是可导的，可以利用自动梯度算法来求解网络的梯度。此处我们仅简单地推导一下RNN的梯度传播公式，并观察其特点。

考虑梯度 $\frac{∂\mathcal L}{∂\boldsymbol W_{hh}}$ ，其中 $\mathcal L$ 为网络的误差，只考虑最后一个时刻 $t$ 的输出 $\boldsymbol o_t$ 与真实值之间的差距。由于 $\boldsymbol W_{hh}$ 被每个时间戳i上权值共享，在计算 $\frac{∂\mathcal L}{∂\boldsymbol W_{hh}}$ 时需要将每个中间时间戳 $i$ 上面的梯度求和，利用链式法则展开为
$\frac{∂\mathcal L}{∂\boldsymbol W_{hh}}=\sum_{i=1}^t\frac{∂\mathcal L}{∂\boldsymbol o_t} \frac{∂\boldsymbol o_t}{∂\boldsymbol h_t} \frac{∂\boldsymbol h_t}{∂\boldsymbol h_i} \frac{∂^+ \boldsymbol h_i}{∂\boldsymbol W_{hh}}$
其中 $\frac{∂\mathcal L}{∂\boldsymbol o_t}$ 可以基于损失函数直接求得， $\frac{∂\boldsymbol o_t}{∂\boldsymbol h_t}$ 在 $\boldsymbol o_t=\boldsymbol h_t$ 的情况下:
$\frac{∂\boldsymbol o_t}{∂\boldsymbol h_t}=1$
而 $\frac{∂^+ \boldsymbol h_i}{∂\boldsymbol W_{hh}}$ 的梯度将 $\boldsymbol h_i$ 展开后也可以求得:
$\frac{∂^+ \boldsymbol h_i}{∂\boldsymbol W_{hh}}=\frac{∂σ(\boldsymbol W_{xh} \boldsymbol x_t+\boldsymbol W_{hh} \boldsymbol h_{t-1}+\boldsymbol b)}{∂\boldsymbol W_{hh}}$
其中 $\frac{∂^+ \boldsymbol h_i}{∂\boldsymbol W_{hh}}$ 只考虑到一个时间戳的梯度传播，即“直接”偏导数，与 $\frac{∂\mathcal L}{∂\boldsymbol W_{hh}}$ 考虑 $i = 1, \dots, t$ 所有的时间戳的偏导数不同。

因此，只需要推导出 $\frac{∂\boldsymbol h_t}{∂\boldsymbol h_i}$ 的表达式即可完成循环神经网络的梯度推导。利用链式法则，我们把 $\frac{∂\boldsymbol h_t}{∂\boldsymbol h_i}$ 分拆分连续时间戳的梯度表达式:
$\frac{∂\boldsymbol h_t}{∂\boldsymbol h_i}=\frac{∂\boldsymbol h_t}{∂\boldsymbol h_{t-1}} \frac{∂\boldsymbol h_{t-1}}{∂2} … \frac{∂\boldsymbol h_{i+1}}{∂\boldsymbol h_i}=\prod_{k=i}^{t-1}{\frac{∂\boldsymbol h_{k+1}}{∂\boldsymbol h_k}}$
考虑
$\boldsymbol h_{k+1}=∂σ(\boldsymbol W_{xh} \boldsymbol x_{k+1}+\boldsymbol W_{hh} \boldsymbol h_k+\boldsymbol b)$
那么
$\begin{aligned}\frac{∂\boldsymbol h_{k+1}}{∂\boldsymbol h_k}&=\boldsymbol W_{hh}^T diag(σ' (\boldsymbol W_{xh} \boldsymbol x_{k+1}+\boldsymbol W_{hh} \boldsymbol h_k+\boldsymbol b))\\ &=\boldsymbol W_{hh}^T diag(σ' (\boldsymbol h_{k+1}))\end{aligned}$
其中 $diag(\boldsymbol x)$ 把向量 $\boldsymbol x$ 的每个元素作为矩阵的对角元素，得到其它元素全为0的对角矩阵，例如:
$diag([3,2,1])=\begin{bmatrix}3&0&0\\0&2&0\\0&0&1\end{bmatrix}$
因此
$\frac{∂\boldsymbol h_t}{∂\boldsymbol h_i}=\prod_{j=i}^{t-1}diag(σ' (\boldsymbol W_{xh} \boldsymbol x_{k+1}+\boldsymbol W_{hh} \boldsymbol h_k+\boldsymbol b)) \boldsymbol W_{hh}$
至此， $\frac{∂\mathcal L}{∂\boldsymbol W_{hh}}$ 的梯度推导完成。

由于深度学习框架可以帮助我们自动推导梯度，只需要简单地了解循环神经网络的梯度传播方式即可。我们在推导 $\frac{∂\mathcal L}{∂\boldsymbol W_{hh}}$ 的过程中发现， $\frac{∂\boldsymbol h_t}{∂\boldsymbol h_i}$ 的梯度包含了 $\boldsymbol W_{hh}$ 的连乘运算，我们会在后面介绍，这是导致循环神经网络训练困难的根本原因。