5、神经网络训练：原理、挑战与应对策略-优快云博客

本文链接：https://blog.youkuaiyun.com/tree/article/details/154629871

神经网络训练：原理、挑战与应对策略

1. 动态规划递归与反向传播

动态规划递归在计算上存在多种方式，这取决于中间链式计算所选用的变量。不过，所有这些递归方式在反向传播的最终结果上是等价的。有一种更常见于教科书的动态规划递归替代版本。之前的公式 1.23 使用隐藏层变量作为动态规划递归的“链式”变量，我们也可以使用变量的预激活值来应用链式法则。神经元中的预激活变量是在应用线性变换之后（但在应用激活变量之前）得到的中间变量。例如，隐藏变量 $h = Φ(a_h)$ 的预激活值是 $a_h$。

以下是替代公式 1.23 的链式法则：
[
\frac{\partial L}{\partial w(h_{r - 1}, h_r)} = \frac{\partial L}{\partial o} \cdot Φ’(a_o) \cdot
\begin{bmatrix}
\sum_{[h_r, h_{r + 1}, \ldots, h_k, o] \in P} \frac{\partial a_o}{\partial a_{h_k}} \prod_{i = r}^{k - 1} \frac{\partial a_{h_{i + 1}}}{\partial a_{h_i}}
\end{bmatrix}
]

这里引入了符号 $\delta(h_r, o) = \frac{\partial L}{\partial a_{h_r}}$ 来建立递归方程，而不是使用 $\Delta(h_r, o) = \frac{\partial L}{\partial h_r}$。$\delta(o, o) = \frac{\partial L}{\partia