线搜索方法-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44077955/article/details/125898646

本文深入探讨了线搜索方法在梯度下降、牛顿法和拟牛顿法中的应用，介绍了Wolfe条件和Goldstein条件确保步长合适及算法的充分下降。同时，详细分析了最速下降法、牛顿法和拟牛顿法的收敛速度，证明了它们的收敛性质。此外，还提到了海森矩阵修正的牛顿法以确保算法在面对负特征值时仍能保持收敛性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线搜索方法

本文主要介绍线搜索方法（包含梯度下降，牛顿法，拟牛顿法的分析）。

线搜索方法是一种迭代算法，迭代的过程由下列公式给出。

$x_{k+1}=x_k+\alpha_k p_k$

其中 $\alpha_k$ 为步长， $p_k$ 为方向。我们需要确定这两个参数，来帮助我们迭代。

步长

在理想情况下我们需要选择步长来最小化 $\phi(\alpha)=f(x_k+\alpha p_k)，\alpha>0$ 。但是寻找到满足最小化的情况很难。经典的线搜索算法尝试 $\alpha$ 的一系列候选值，当满足某些条件时，停下来时接收这些值中的一个。

WOLFE 条件

首先我们定义一下

$\phi(\alpha)=f(x_k+\alpha p_k),\alpha>0$

wolfe条件包含了两个条件，第一个是充分下降（sufficient decrease），第二个是曲率条件（curvature conditions）。

充分下降

$f(x_k+\alpha p_k) \leq f(x_k)+c_1\alpha \nabla f^T_k p_k$

其中 $c_1\in (0,1)$ ,这个说明函数的下降需要和步长和方向导数成正比，在这里叫作Armijo condition。等式的右边是一个关于 $\alpha$ 的线性函数，斜率是负的。

在这里插入图片描述

曲率条件

当 $\alpha$ 很小的时候充分下降退化为 $f(x_k+\alpha p_k) \leq f(x_k)$ ，无法保证算法的收敛性，所以还需要增加第二个条件来保证步长不会太小。

$\nabla f(x_k+\alpha_k p_k)^T p_k \geq c_2 \nabla f^T_k p_k$

等式的左边是 $\phi(\alpha_k)$ 的导数。曲率条件的意思是 $\phi$ 在 $\alpha_k$ 的斜率大于 $c_2 \times \phi^{\prime}(0)$ 。从直观上来看如果等式左边接近0时，曲率接近水平，这样就接近最优解。

在这里插入图片描述

上述两个条件共同构成了Wolfe条件。强Wolfe条件和wolfe第一个不等式一样，只是在第二个不等式换成

$|\nabla f(x_k+\alpha_k p_k)^T p_k| \leq c_2 |\nabla f^T_k p_k|$

换成这样是为了不让 $\phi^{\prime}(\alpha_k)$ 过大。

THE GOLDSTEIN CONDITIONS

与Wolfe条件一样，Goldstein条件也能保证充分下降并且步长α不会太短。Goldstein条件也可以表述为一对不等式，如下所示:

$f(x_k)+(1-c)\alpha_k \nabla f^T_k p_k \leq f(x_k+\alpha_k p_k) \leq f(x_k) + c\alpha_k \nabla f^T_k p_k$

在这里插入图片描述

第二个不等式就是充分下降条件，而第一个不等式对步长的限制参照上图可以比较直观的看出来。

Backtracking Line Search

在这里插入图片描述

即首先定一个值 $\bar{\alpha}$ ，然后反复乘以 $\rho$ ,直到最后满足条件。

线搜索方法收敛性分析

首先我们定义

$cos\theta_k=\frac{-\nabla f^T_k p_k}{ \left\| \nabla f_k\right\| \left\| p_k\right\|}$

我们有定理

如果

$\left\| \nabla f(x)- \nabla f(\tilde{x}) \right\| \leq L\left\| x-\tilde{x} \right\|$

那么

$\sum_{k=0}cos^2\theta_k \left\| \nabla f_k \right\|^2 < \infty$

这个定理还有一些条件需要满足，具体参照书本，这里就不细写了😬。定理的证明书中也有详细介绍。

收敛速度

最速下降法的收敛速度

为简单起见，在最速下降法中，假设目标函数为二次函数

$f(x)=\frac{1}{2}x^TQx-b^Tx$

我们可以很容易的算出步长为

$\alpha_{k}=\frac{\nabla f_{k}^{T} \nabla f_{k}}{\nabla f_{k}^{T} Q \nabla f_{k}}$

则算法的迭代公式为

$x_{k+1}=x_{k}-\left(\frac{\nabla f_{k}^{T} \nabla f_{k}}{\nabla f_{k}^{T} Q \nabla f_{k}}\right) \nabla f_{k}$

我们定义

$\left\| x \right\|^2_Q = x^TQx$

由于梯度为0的时候 $Qx^*=b$ ,我们可以得到

$\frac{1}{2} \left\| x-x^* \right\|^2_Q = f(x)-f(x^*)$

接着再得到

$\left\|x_{k+1}-x^{*}\right\|_{Q}^{2}=\left\{1-\frac{\left(\nabla f_{k}^{T} \nabla f_{k}\right)^{2}}{\left(\nabla f_{k}^{T} Q \nabla f_{k}\right)\left(\nabla f_{k}^{T} Q^{-1} \nabla f_{k}\right)}\right\}\left\|x_{k}-x^{*}\right\|_{Q}^{2}$

但是这样的表达式很难看，所以有数学家又将这些改写成了

$\left\|x_{k+1}-x^{*}\right\|_{Q}^{2} \leq\left(\frac{\lambda_{n}-\lambda_{1}}{\lambda_{n}+\lambda_{1}}\right)^{2}\left\|x_{k}-x^{*}\right\|_{Q}^{2}$

其中 $\lambda_1\leq\lambda_2\leq...\leq \lambda_n$ 是Q的特征值。这证明了最速下降法的收敛速度是线性收敛。

牛顿法收敛速度

在牛顿法中方法的表达如下所示

$P^N_k=-\nabla^2f^{-1}_{k}\nabla f_k$

我们能够得到定理，具体证明参照书本

在这里插入图片描述

拟牛顿法收敛速度

$P_k=-B^{-1}_{k}\nabla f_k$

拟牛顿法的收敛速度为超线性收敛

在这里插入图片描述

海森矩阵修正的牛顿法

由于海森矩阵有时候并不能保证它是正定的，这个时候算法的收敛性无法得到保证，所以有时我们需要对海森矩阵进行修改。

我们可以使用Levenberg-Marquardt修正，这个修正的思路是比较简单。由于原本的海森矩阵中有负的特征值，所以我们另外构造出一个对角阵 $\mu I$ ,将这个对角阵加到原本的海森矩阵上，从而保证得到的矩阵为正定的矩阵。使用得到的矩阵代替原本的矩阵，这样就能保证算法的收敛性。

参考资料

① Numerical Optimization