1、通过考虑误差函数在驻点 w⋆ 处的局部泰勒展开式,证明该驻点是误差函数局部最小值的充要条件是,在 w = w⋆ 时对应的海森矩阵 H 是正定的。
首先,将误差函数在驻点 $ w^\star $ 处进行局部泰勒展开得到
$$
E(w) = E(w^ ) + \frac{1}{2}(w - w^ )^T H (w - w^*)
$$
把 $ (w - w^ ) $ 展开为特征向量的线性组合
$$
w - w^ = \sum_{i} \alpha_i u_i
$$
代入展开式并利用相关条件,可将误差函数写成
$$
E(w) = E(w^*) + \frac{1}{2} \sum_{i} \lambda_i \alpha_i^2
$$
若移动 $ w $ 使其远离 $ w^\star $ 且仅改变一个 $ \alpha_j $,当对应的特征值 $ \lambda_j $ 为正时,误差函数增大;当 $ \lambda_j $ 为负时,误差函数减小。
- 若所有特征值均为正,$ w^\star $ 对应误差函数的局部最小值;
- 若所有特征值均为负,$ w^\star $ 对应局部最大值;
- 若特征值有正有负,$ w^\star $ 为鞍点。
对于任意向量 $ v $,因为特征向量 $ u_i $ 构成完备集,所以
$$
v = \sum_{i} c_i u_i
$$
进而可得
$$
v^T H v = \sum_{i} c_i^2 \lambda_i
$$
根据正定矩阵的定义,矩阵 $ H $ 正定的充要条件是对于所有 $ v $ 都有
$$
v^T H v > 0
$$
即所有特征值 $ \lambda_i $ 都为正。
因此,驻点 $ w^\star $ 是误差函数局部最小值的充

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



