神经网络训练:从误差函数到梯度优化
1. 误差函数的二次近似
在最小值 $w^\star$ 的邻域内,误差函数可以用二次函数来近似。此时,恒定误差的等高线是椭圆,这些椭圆的轴与海森矩阵(Hessian matrix)的特征向量 $u_i$ 对齐,其长度与相应特征值 $\lambda_i$ 的平方根成反比。
由于特征向量 ${u_i}$ 构成一个完整的集合,任意向量 $v$ 可以写成如下形式:
[v = \sum_{i} c_i u_i]
从相关公式可得:
[v^T H v = \sum_{i} c_i^2 \lambda_i]
海森矩阵 $H$ 为正定矩阵的充要条件是其所有特征值均为正。
对于一维权重空间,一个驻点 $w^\star$ 为最小值的条件是:
[\left.\frac{\partial^2 E}{\partial w^2}\right|_{w^\star} > 0]
在 $D$ 维空间中,对应的结果是在 $w^\star$ 处计算的海森矩阵应为正定矩阵。
2. 梯度信息的使用
通过反向传播过程,可以高效地计算误差函数的梯度。使用梯度信息能够显著提高定位误差函数最小值的速度,原因如下:
在误差函数的二次近似中,误差曲面由 $b$ 和 $H$ 确定,它们总共包含 $W(W + 3)/2$ 个独立元素(因为矩阵 $H$ 是对称的),其中 $W$ 是权重向量 $w$ 的维度,即网络中自适应参数的总数。
二次近似的最小值位置取决于 $O(W^2)$ 个参数,因此在收集到 $O(W^2)$ 个独立信息之前,我们无法确定最小值的位置。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



