为何最优化中的牛顿法是椭球范数下的最速下降法

本文介绍了在不同范数下最速下降方向的选择,并给出了牛顿法与最速下降法的方向导数证明。文中详细解释了在欧几里得范数下负梯度方向是最速下降方向,在椭球范数下牛顿方向是最速下降方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

梯度与黑塞矩阵分别由下列符号表示:

g(x)=\nabla f(x_k)

g(x)=\nabla ^2 f(x_k)

牛顿法的迭代关系式为:

x_{k+1}=x_{k}-\lambda{\nabla}^{2}f(x_{k})^{-1}\nabla f(x_{k})=x_{k}-\lambda G^{-1}_{k}g_{k}

而最速下降法的迭代关系式为:

x_{k+1}=x_{k}-\lambda\nabla f(x_{k})=x_{k}-\lambda g_{k}

其中,lambda 为步长值。

欧氏空间一般范数下的方向导数为:

\begin{equation}\frac{df}{da}=\lim\limits_{h\rightarrow 0}\frac{f(x+ha)-f(x)}{\|ha\|}=\lim\limits_{h\rightarrow 0}\frac{f(x+ha)-f(x)}{h\|a\|}=\frac{\nabla f(x)a}{\|a\|}\end{equation}

其中 a 为一个向量,用来表示方向;最后一个等号用到了方向倒数与函数梯度之间的关系。此时,方向导数与范数有关。

定义任一向量的椭球范数为:

\begin{equation}\|x\|_{G}\overset{\Delta}{=}\sqrt{x^{T}Gx}\end{equation}

上式中,等号上面的三角形表示定义的意思,其中 G 为正定矩阵

1. 若取 2 范数,则 负梯度方向为最速下降方向。

证明:

\frac{df}{da}=\frac{\nabla f(x)^{T}a}{\|a\|}=\nabla f(x)^{T}e=\|\nabla f(x)^{T}\|*\|e\|*cos\theta=\|\nabla f(x)^{T}\|cos\theta

其中,e 是与 a 同方向的单位向量,显然 theta 取180 度, cos(theta) 为 -1 时上式最小,此时 a 为负梯度方向。

2. 若取椭球范数,则牛顿方向为最速下降方向

证明:首先求方向导数的下界

\frac{df}{da}=\frac{g^{T}a}{\|a\|}=-\frac{-g^{T}G^{-1}Ga}{\|a\|}\geq-\frac{\|G^{-1}g\|*\|a|}{\|a\|}=-\|G^{-1}g\|

上式利用了椭球范数的性质,

|x^TAy|\leq \|x\|_A\|y\|_A

参见《最优化理论与方法》第6页。

并且,当 

a=G^{-1}g

 时,

\frac{df}{da}=\frac{g^{T}a}{\|a\|}=-\frac{g^{T}G^{-1}g}{\|a\|}=-\frac{(-G^{-1}g)^{T}G(-G^{-1}g)}{\|a\|}=-\frac{\|a\|^{2}}{\|a\|}=-\|a\|=-\|G^{-1}g\|

方向导数刚好达到下界,得证。

在此情况下,牛顿方向可以理解为先通过一个适当的线性变换把目标函数的扁长的椭球张的等值线“挤”圆后,再计算最速下降方向得到的。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心态与习惯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值