最速下降法
最速下降法也称为梯度下降法(gradient descent)
- xk+1=xk−αkgk
确定学习速度αk的常见方法:
- 选择固定的αk值(通常为0.01或0.02)
- 使基于αk的性能指数F(x)每次迭代最小化,即沿下列方向实现最小化:xk−αkgk
稳定的学习速度
对于任意函数,我们不可能确定最大的可行学习速度,但对于二次函数是可以的
假定性能指数是一个二次函数,那么最速下降法稳定条件为:
- |(1−αλ)|<1
如果性能指数有一个强极小点,则其特征值为正数,上式可化为
- α<2λmax
学习速度受限于赫森矩阵的最大特征值λmax。
在最大特征值的特征向量方向上收敛最快。在最小特征值的特征向量方向上收敛最慢。
最小特征值和学习速度共同决定了算法收敛的快慢。特征值大小相差越大,最速下降法收敛越慢
沿直线最小化
沿直线xk+1=xk+αkpk的最小学习速度为:
- αk=−gkTpkpkTApk
沿直线xk+1=xk+αkpk最小化后:
- gTk+1pk=0