9.4 最速下降方法
对f(x+v)在x处进行一阶Taylor展开:
其中是f在x处沿方向v的方向导数
令是
上的任意番薯,顶一个规范化的最速下降方向:
一个规范化的最速下降方向是一个能使f的线性近似下降最多的具有单位范数的步径。
也可以将规范化的最速下降方向乘以一个特殊的比例因子,从而考虑下述非规范化的最速下降方向:
其中表示对偶范数。对于这种最速下降步径,有:
不同范数下的最速下降方法
采用Euclid范数的最速下降方法
此时最速下降方向就负梯度方向,也就是梯度下降方法。
采用二次范数的最速下降方法
考虑二次范数
其中。此时规范化的最速下降方向:
对偶范数。因此在二次范数下的最速下降步径为:
基于坐标变换的解释
对于最速下降方向,还有另一种解释:即对原问题进行某种坐标变换后的梯度下降方向。
定义,于是
,采用这种坐标变换,原目标函数f的极小化问题可以等价为极小化下式给出的目标函数
。此时采用梯度下降方法优化
,在点
处的直线搜索方向为:
而对应于原变量x的直线搜索方向:
也就是说在二次范数下的最速下降方向,可以理解为对原问题进行最标编号
后的梯度方向。
范数下的最速下降方向
范数下的最速下降方向:
,其中
表示第i个标准基向量。可以理解为每次得到一个梯度,这个梯度中有不同的分量,每个分量有不同的大小,每次都选择值最大的那个分量的方向来更新。
最速下降方向的范数选择
如上图是两个同一个问题不同的范数下的得到的迭代过程,可以看出左图范数下,收敛速度快,这是因为当考虑坐标变换的时候,最速下降法变成了梯度下降方法,而在这种变换下,下水平集的条件数被减小了,而梯度下降方法的收敛速度与下水平集的条件数有关,条件数减少了收敛速度也就快了,而右图收敛速度慢,是因为在这种坐标变换下,下水平集的条件数增多了。
来源:https://blog.youkuaiyun.com/wangchy29/article/details/88121255