梯度与黑塞矩阵分别由下列符号表示:
牛顿法的迭代关系式为:
而最速下降法的迭代关系式为:
其中,lambda 为步长值。
欧氏空间一般范数下的方向导数为:
\begin{equation}\frac{df}{da}=\lim\limits_{h\rightarrow 0}\frac{f(x+ha)-f(x)}{\|ha\|}=\lim\limits_{h\rightarrow 0}\frac{f(x+ha)-f(x)}{h\|a\|}=\frac{\nabla f(x)a}{\|a\|}\end{equation}
其中 a 为一个向量,用来表示方向;最后一个等号用到了方向倒数与函数梯度之间的关系。此时,方向导数与范数有关。
定义任一向量的椭球范数为:
\begin{equation}\|x\|_{G}\overset{\Delta}{=}\sqrt{x^{T}Gx}\end{equation}
上式中,等号上面的三角形表示定义的意思,其中 G 为正定矩阵
1. 若取 2 范数,则 负梯度方向为最速下降方向。
证明:
其中,e 是与 a 同方向的单位向量,显然 theta 取180 度, cos(theta) 为 -1 时上式最小,此时 a 为负梯度方向。
2. 若取椭球范数,则牛顿方向为最速下降方向
证明:首先求方向导数的下界
上式利用了椭球范数的性质,
参见《最优化理论与方法》第6页。
并且,当
时,
方向导数刚好达到下界,得证。
在此情况下,牛顿方向可以理解为先通过一个适当的线性变换把目标函数的扁长的椭球张的等值线“挤”圆后,再计算最速下降方向得到的。