神经网络训练:原理、挑战与应对策略
1. 动态规划递归与反向传播
动态规划递归在计算上存在多种方式,这取决于中间链式计算所选用的变量。不过,所有这些递归方式在反向传播的最终结果上是等价的。有一种更常见于教科书的动态规划递归替代版本。之前的公式 1.23 使用隐藏层变量作为动态规划递归的“链式”变量,我们也可以使用变量的预激活值来应用链式法则。神经元中的预激活变量是在应用线性变换之后(但在应用激活变量之前)得到的中间变量。例如,隐藏变量 $h = Φ(a_h)$ 的预激活值是 $a_h$。
以下是替代公式 1.23 的链式法则:
[
\frac{\partial L}{\partial w(h_{r - 1}, h_r)} = \frac{\partial L}{\partial o} \cdot Φ’(a_o) \cdot
\begin{bmatrix}
\sum_{[h_r, h_{r + 1}, \ldots, h_k, o] \in P} \frac{\partial a_o}{\partial a_{h_k}} \prod_{i = r}^{k - 1} \frac{\partial a_{h_{i + 1}}}{\partial a_{h_i}}
\end{bmatrix}
]
这里引入了符号 $\delta(h_r, o) = \frac{\partial L}{\partial a_{h_r}}$ 来建立递归方程,而不是使用 $\Delta(h_r, o) = \frac{\partial L}{\partial h_r}$。$\delta(o, o) = \frac{\partial L}{\partia
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



