非线性最优化方法概述

原创已于 2025-09-16 23:34:33 修改 · 1.2k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #学习

于 2025-06-02 22:36:11 首次发布

文章目录

非线性最优化算法

非线性最优化算法

算法一般性流程

在这里插入图片描述
在非线性优化理论中，迭代算法通常遵循 $x_{k+1} = x_k + α_k d_k$ 的形式，其中：

$x_k$ 是当前迭代点
$d_k$ 是搜索方向
$α_k$ 是移动步长

不同的优化算法采用不同的策略来确定搜索方向 $d_k$ 。一个好的搜索方向应该至少是一个下降方向，即在该方向上目标函数值能够减小。如果 $\nabla f(x_k)^T d < 0$ ，则方向 $d$ 是函数 $f (x)$ 在点 $x_k$ 处的下降方向。

搜索方向的选择

以下是一些主要的、不同的计算搜索方向的方法：

最速下降法

$\textbf{思想:}$ 沿负梯度方向搜索，因为负梯度方向是函数值在局部下降最快的方向。
$\textbf{计算:}$ $d_k = -\nabla f(x_k)$
$\textbf{特点:}$
- 简单直观，易于实现
- 保证是下降方向（梯度非零）
- 收敛速度慢，尤其是在目标函数等值线呈狭长山谷状时，会出现“锯齿形”现象
- 属于一阶方法（只使用一阶导数）
$\textbf{算法收敛特点：}$
最速下降法在每一步选择的是当前点局部下降最快的方向，即负梯度方向，然而，这个局部最快的下降方向，并不一定是通向全局最优解的最短或最直接的路径。其算法收敛路径如下图所示：

在当前迭代点 $x_k$ 沿着负梯度方向 $d_k = -\nabla f(x_k)$ 进行线搜索时，那么在新的迭代点 $x_{k+1} = x_k + α_k d_k$ 处，目标函数 $\varphi(α) = f(x_k + α d_k)$ 关于 $α$ 的导数应为零，即
$\varphi'(α_k) = \nabla f(x_k + α_k d_k)^T d_k = \nabla f(x_{k+1})^T d_k = 0$ 将 $d_k = -\nabla f(x_k)$ 代入，得到：
$\nabla f(x_{k+1})^T (-\nabla f(x_k)) = 0$ 即
$\nabla f(x_{k+1})^T \nabla f(x_k) = 0$ 这意味着连续两次迭代的梯度方向是正交的（基于精确线搜索）。在实际求解过程中，一般使用非精确线搜索寻找 $α_k$ ，这些方法不追求 $\nabla f(x_{k+1})^T d_k = 0$ ，因此连续的搜索方向通常不是严格正交的。

牛顿法

$\textbf{思想:}$ 在当前迭代点 $x_k$ 处，利用二阶泰勒展开近似目标函数 $f (x)$ ，然后取该近似函数的极小点（或驻点）作为下一个迭代点 $x_{k+1}$ 的搜索方向 $d_k$ 和步长 $α_k$ ( $α_k$ 通常取1)。
$\textbf{计算:}$ $d_k = -[\nabla^2 f(x_k)]^{-1} \nabla f(x_k)$ ，其计算步骤如下：
首先将目标函数 $f (x)$ 在点 $x_k$ 附近二阶泰勒展开为：
$f(x_k + s) \approx q(s) = f(x_k) + \nabla f(x_k)^Ts + \frac{1}{2}s^T\nabla ^2 f(x_k)s$ 其中：
- $s = x - x_k$ 是从 $x_k$ 出发的位移（即搜索步）;
- $\nabla f(x_k)$ 是 $f (x)$ 在 $x_k$ 处的梯度向量;
- $\nabla ^2 f(x_k)$ 是 $f (x)$ 在 $x_k$ 处的Hessian矩阵，记为 $H_k$ .
将二次模型 $q (s)$ 取极值时的解 $s$ 作为搜索方向，对 $q (s)$ 关于 $s$ 求导并令其等于零：
$\nabla f(x_k) + \nabla ^2 f(x_k)s = 0$ 如果Hessian矩阵 $\nabla ^2f(x_k)$ 是非奇异的（可逆的），则解得：
$-[\nabla ^2 f(x_k)]^{-1} \nabla f(x_k)$ 解 $s$ 被称为牛顿方向，记为 $d_k$ ：
$d_k= -[\nabla ^2f(x_k)]⁻¹ \nabla f(x_k)$
$\textbf{特点:}$
- 在最优解附近具有二次收敛速度，收敛速度非常快
- 需要计算并存储Hessian矩阵及其逆矩阵，计算量大，特别是对于高维问题
- Hessian矩阵可能非正定，此时牛顿方向可能不是下降方向，甚至算法可能失效。需要修正（如阻尼牛顿法、修正Cholesky分解等）
- 对初始点要求较高，远离最优解时可能不收敛
- 属于二阶方法（使用一阶和二阶导数）
$\textbf{算法收敛特征：}$
- “一步最优”情况
  当目标函数为二次函数，其Hessian矩阵正定且可逆，牛顿法可以一步到达最优点，原因在于该二次函数的泰勒展开是精确的。假设目标函数 $f (x)$ 是一个二次函数
  $b^T x + \frac{1}{2}x^T Ax$ 其中 $A$ 是对称的Hessian矩阵， $b$ 是一个常向量， $c$ 是一个常数，则 $\nabla f(x) = b + Ax$ ， $\nabla ^2 f(x) = A$ 。 $f (x)$ 在任意点 $x_k$ 的二阶泰勒展开为：
  $f(x_k) + \nabla f(x_k)^Ts + \frac{1}{2}s^T\nabla^2 f(x_k)s$ 代入 $\nabla f(x_k)$ 和 $\nabla ^2 f(x_k)$ 后得到：
  $f(x_k) + (b + Ax_k)^Ts + \frac{1}{2}s^TAs$ 将 $x = s + x_k$ 代入 $f (x)$ 中，得到¹：
  $\begin{align*} f(x_k+s) & = c + b^T (x_k+s) + \frac{1}{2}(x_k+s)^T A(x_k+s)\\ & = c+b^Tx_k +b^T s +\frac{1}{2}(x_k^T A+s^T A)(x_k+s)\\ & = c+b^Tx_k +b^T s +\frac{1}{2}(x_k^T A x_k +s^T A x_k + x_k^T A s + s^T A s)\\ & = c+b^Tx_k +b^T s +\frac{1}{2}x_k^T A x_k + x_k^T A s + \frac{1}{2}s^T A s\\ & = [c+b^Tx_k+\frac{1}{2}x_k^T A x_k] + (b+Ax_k)^T s+ \frac{1}{2}s^T A s ---(f(x_k)代入q(s)后的形式)\\ & = q(s) \end{align*}$ 因此函数 $f (x)$ 在任意点 $x_k$ 处的二阶泰勒展开 $q (s)$ 完全等于其本身。那么 $q (s)$ 的驻点（通过 $\nabla q(s_k) = 0$ ）所对应的点 $x_{k+1}=x_k + s_k$ ，就是原始函数 $f (x)$ 的驻点。当 $f (x)$ 是一个凸二次函数（ $A$ 是正定的），它有唯一的全局最小值。其求解过程如下：
  $\nabla q(s_k) = \nabla f(x_k) + As_k = 0$ 得到 $s_k = -A^{-1} \nabla f(x_k)$ ，则 $x_{k+1}=x_k -A^{-1}\nabla f(x_k)$ 。 $f (x)$ 在 $x_{k+1}$ 处的梯度为：
  $\begin{align*} \nabla f(x_{k+1}) & = b + A x_{k+1}\\ & = b + A(x_k - A^{-1} \nabla f(x_k))\\ & = b + Ax_k - AA^{-1} \nabla f(x_k)\\ & = \nabla f(x_k) - \nabla f(x_k)\\ & = 0 \end{align*}$ 所以，在 $x_{k+1}$ 处，梯度为零。这意味着 $x_{k+1}$ 就是该二次函数的全局最小值点。其收敛特征如下图所示。
- 需要修正情况
  当牛顿法面临Hessian矩阵非正定、计算成本过高或全局收敛性差等问题时，需要对其进行修正。主要的修正方向包括：
  - 阻尼牛顿法
    问题:
    在远离最优解或Hessian非正定时，牛顿法的步长 $α_k=1$ 可能过大，将导致牛顿法难以收敛。
    修正思想:
    在计算出牛顿方向 $d_k = -[\nabla^2 f(x_k)]^{-1} \nabla f(x_k)$ 后，不直接取单位步长，而是引入一个步长因子 $α_k > 0$ ，并通过线搜索来确定 $α_k$ 的值，即 $x_{k+1} = x_k + α_k d_k$ ，则 $α_k = argmin_{α>0} f(x_k + α d_k)$ ( $α_k$ 通过满足Armijo或Wolfe条件的非精确线搜索寻找)。当迭代点接近最优解时， $α_k$ 通常会自动趋向于1，从而保留牛顿法的快速局部收敛性。然而，由于Hessian矩阵非正定，牛顿方向 $d_k$ 可能不是一个下降方向，即存在 $\nabla f(x_k)^T d_k \ge 0$ ，那么无论 $α_k>0$ 取何值都不可能使目标函数值下降。因此，阻尼牛顿法通常需要先对Hessian矩阵进行修正，以确保 $d_k$ 是一个下降方向。
    Hessian矩阵的修正方法
    当 $\nabla ^2 f(x_k)(或H_k)$ 非正定时，对其进行修正，得到一个正定矩阵 $B_k$ ，然后用 $B_k$ 代替 $H_k$ 来计算搜索方向: $d_k = -B_k \nabla f(x_k)$ 。
    1. 对角加载
      方法: 给Hessian矩阵的对角线元素加上一个正数 $\mu_k$ 使其得到的矩阵正定，即 $B_k = H_k + \mu_k I$ ，其中 $I$ 为单位矩阵。
      特性:
      - 当 $\mu_k$ 很小时， $B_k \approx H_k$ ，搜索方向接近牛顿方向。
      - 当 $\mu_k$ 很大时， $B_k$ 由 $\mu_k I$ 主导（ $B_k \approx \mu_k I$ ），则 $d_k \approx -\frac{1}{\mu_k} \nabla f(x_k)$ ，此时搜索方向接近最速下降方向。
    2. 修正Cholesky分解
      方法: 对 $H_k$ 进行Cholesky分解，即 $H_k = LDL^T$ ，其中 $L$ 是单位下三角矩阵， $D=(d_1,d_2,\cdots,d_n)$ 是对角矩阵。在计算 $d_i$ 时，如果 $d_i<0$ ，则令 $\tilde{d_i} = d_i+\sigma$ ，使得 $\tilde{d_i}>0$ ，同时，单位下三角矩阵 $L$ 中的元素发生相应的修改。对所有元素修正完成后得到的新的单位下三角矩阵 $\tilde{L}$ 和对角矩阵 $\tilde{D}$ 。最后， $B_k=\tilde{L} \tilde{D} \tilde{L^T}$ 。

拟牛顿法

思想: 试图兼顾梯度下降法的低计算成本和牛顿法的快速收敛性。通过直接构造一个矩阵 $H_k$ 来近似Hessian矩阵的逆 $\nabla ^2 f(x_k)^{-1}$ 。降低了每一步的计算成本，同时保持了超线性收敛的特性。
计算: $d_k = -H_k \nabla f(x_k)$ 。拟牛顿法的一般性迭代框架为：
1. 给定初始点 $x_0$ ，初始Hessian逆近似 $H_0$ (通常为单位矩阵 $I$ );
2. 计算梯度 $g_k = \nabla f(x_k)$ ;
3. 计算搜索方向 $d_k = -H_k g_k$ ;
4. 通过线搜索确定步长 $α_k$ ，使得 $f(x_k + α_k d_k)$ 充分下降;
5. 更新迭代点 $x_{k+1} = x_k + α_k d_k$ ;
6. 计算 $s_k = x_{k+1} - x_k$ 和 $y_k = \nabla f(x_{k+1}) - \nabla f(x_k)$ ;
7. 使用 $s_k$ 和 $y_k$ 以及当前的 $H_k$ 来更新得到 $H_{k+1}$ ;
8. 检查收敛条件，若不满足则返回步骤 $2$ 。
常用的 $H_k$ 更新公式:
- DFP公式:
  $H_{k+1} = H_k + \frac{s_k s_k^T}{s_k^T y_k} - \frac{H_k y_k y_k^T H_k}{y_k^T H_k y_k}$
- BFGS公式:
  $H_{k+1} = (I - \frac{s_k y_k^T}{y_k^T s_k}) H_k (I - \frac{y_k s_k^T}{y_k^T s_k}) + \frac{s_k s_k^T}{y_k^T s_k}$
- L-BFGS公式:
  适用于大规模问题，不存储完整的 $H_k$ 矩阵，而是存储最近几次迭代的梯度和变量变化信息来隐式地计算 $H_k \nabla f(x_k)$
特点:
- 具有超线性收敛速度，通常比最速下降快得多，比牛顿法在全局收敛性上更鲁棒
- 适用于Hessian矩阵非正定或奇异
- 适用于中等规模问题（BFGS）或大规模问题（L-BFGS）
- 属于（近似的）二阶方法

基于BFGS方法的搜索结果如下图所示。
在这里插入图片描述

共轭梯度法

线性共轭梯度法
- $\textbf{思想:}$ 对于二次规划问题 $\varphi(x) = \frac{1}{2} x^T A x - b^T x$ （ $A$ 对称正定），迭代地生成一组关于矩阵 $A$ 共轭的搜索方向 ${d_0, d_1, ..., d_{k}\}$ ( $A$ -共轭)，则对所有的 $\neq j$ ，满足 $d_i^T A d_j = 0$ 。从初始点 $x_0$ 开始，沿着这些 $A$ -共轭方向 $d_k$ 进行精确线搜索，通过迭代公式 $x_{k+1} = x_k + α_k d_k$ 逐步逼近最优解 $x^*$ 。理论上，对于 $n$ 维问题，在没有舍入误差的情况下，线性共轭梯度法最多经过 $n$ 步迭代就能找到精确解。
- $\textbf{计算流程:}$
  1. 初始化迭代点 $x_0$ ，初始残差 $r_0 = b - Ax_0$ ，初始搜索方向 $d_0 = r_0$ ；设置容差 $\sigma$ ；
  2. 计算迭代步长 $\alpha_k=\frac{r_k^T r_k}{d_k^T A d_k}$ ;
  3. 更新新的迭代点 $x_{k+1} = x_k + α_k d_k$ ;
  4. 更新残差 $r_{k+1} = r_k - α_k A d_k$ ²;
  5. 检查是否收敛，如果 $||r_{k+1}||< \sigma$ ，则停止迭代；
  6. 计算下一个共轭方向 $β_k = \frac{r_{k+1}^T r_{k+1}}{r_k^T r_k}$ ;
  7. 更新搜索方向 $d_{k+1} = r_{k+1} + β_k d_k$ （ $d_{k+1}$ 与之前的所有搜索方向 $d_j$ 共轭， $d_{k+1} A d_j = 0$ ）;
  8. 转到步骤 $2$ .
- $\textbf{算法特点：}$
  - 存储高效：只需要存储少数几个 $n$ 维向量 ( $x_k, r_k, d_k, Ad_k$ )，存储复杂度为 $O (n)$ 。
  - 有限步收敛（理论上）：对于 $n$ 维问题，在精确算术下，最多 $n$ 步收敛。
  - 单调下降：目标函数 $\varphi(x)$ 的值在迭代过程中是单调下降的。

线性共轭梯度法的搜索结果如下图所示。
在这里插入图片描述
其中，
$\begin{pmatrix} 3 & 2 \\ 2 & 6 \end{pmatrix}, b = \begin{pmatrix} 2 \\ 8 \end{pmatrix}, X_0= \begin{pmatrix} -3 \\ -2 \end{pmatrix}$

非线性共轭梯度法
- $\textbf{思想:}$
  非线性共轭梯度法将线性共轭梯度法的思想推广到非二次目标函数。由于Hessian矩阵 $\nabla^2 f(x)$ 不再是常数 $A$ ，且通常难以计算或存储，非线性共轭梯度法避免了直接使用Hessian矩阵。与线性共轭梯度法类似，非线性共轭梯度法也生成一系列搜索方向 $d_k$ ，使得新的方向 $d_{k+1}$ 是当前负梯度 $f(x_{k+1})$ 和前一个搜索方向 $d_k$ 的线性组合： $d_{k+1} = -∇f(x_{k+1}) + β_{k+1} d_k$ 。
- $\textbf{计算流程:}$
  1. 初始化迭代点 $x_0$ ，初始梯度 $g_0 = \nabla f(x_0)$ ，初始搜索方向 $d_0 = -g_0$ ；设置容差 $\sigma$ ；
  2. 计算迭代步长 $\alpha_k$ （使用非精确线搜索，Armijo/Wolfe条件）;
  3. 更新新的迭代点 $x_{k+1} = x_k + α_k d_k$ ;
  4. 计算新梯度 $g_{k+1} = \nabla f(x_{k+1})$ ;
  5. 检查是否收敛，如果 $||g_{k+1}||< \sigma$ ，则停止迭代；
  6. 计算 $β_{k+1}$ ，几种不同的方法如下：
    - Fletcher-Reeves (FR)： $β_{k+1} = \frac{g_{k+1}^T g_{k+1}}{g_k^T g_k}$
    - Polak-Ribière (PR)： $β_{k+1} = \frac{g_{k+1}^T (g_{k+1} - g_k)}{g_k^T g_k}$
    - Hestenes-Stiefel (HS)： $β_{k+1} = \frac{g_{k+1}^T (g_{k+1} - g_k)}{(g_{k+1} - g_k)^T d_k}$
    - Dai-Yuan (DY)： $β_{k+1} = \frac{g_{k+1}^T g_{k+1}}{(g_{k+1} - g_k)^T d_k}$
    - Polak-Ribière Plus (PRP)： $β_{k+1}= max(0, β_{k+1}^{PR})$
  7. 更新搜索方向 $d_{k+1} = -g_{k+1} + β_{k+1} d_k$ ;
  8. 转到步骤 $2$ .
$\textbf{算法特点:}$
- 不需要存储Hessian矩阵，计算量小，适用于大规模问题
- 收敛速度通常介于最速下降和拟牛顿法之间。
- 对于非二次函数，需要周期性地重置（例如，每 $n$ 次迭代后将方向设为负梯度方向）。
- 属于一阶方法（主要依赖梯度信息，历史信息被用来构造共轭性）。

基于Fletcher-Reeves和Polak-Ribière方法的非线性牛顿法的求解Rosenbrock函数结果分别如下所示。
在这里插入图片描述

搜索步长的选择

在非线性优化中，一旦确定了搜索方向 $d_k$ ，下一步就是确定沿着这个方向走多远，即选择一个合适的步长 $α_k > 0$ ，使得目标函数 $f (x)$ 的值在 $x_{k+1} = x_k + α_k d_k$ 处有足够的下降。选择步长的方法主要分为线搜索方法和信赖域方法两大类，其中线搜索方法包括精确线搜索和非精确线搜索。

精确线搜索

$\textbf{思想:}$
给定一个搜索方向 $d_k$ ，沿着这个方向找到一个最优解 $\alpha_k$ ，使得目标函数 $f (x)$ 在这个方向上达到最小值。也就是说，给定当前迭代点 $x_k$ 和搜索方向 $d_k$ ，定义一个关于迭代步长 $α$ 的一维函数 $\varphi(α) = f(x_k + α * d_k)$ 精确线搜索的目标就是求解该一维优化问题，即
$α_k = \argmin_{α > 0} \varphi (α)$
$\textbf{计算方法:}$
基于函数 $\varphi(α)$ 的性质以及可用的信息，求解 $\varphi(α) = f(x_k + α * d_k)$ 的方法可以分为解析方法和数值方法。
- 解析方法：
  如果函数 $f (x)$ 的形式比较简单，使得 $\varphi(α)$ 的导数 $\varphi'(α)$ 容易计算，并且方程 $\varphi'(α)=0$ 可以解析地求解，则 $\alpha_k$ 往往可以求解出解析式。假设目标函数 $f (x)$ 是一个凸二次函数：
  $\frac{1}{2}x^T A x - b^T x + c$ 其中 $A$ 是对称正定矩阵，则 $\nabla f(x) = Ax - b$ 。对 $\varphi(α)$ 求导：
  $\begin{align*} \varphi' (\alpha) & = \nabla f(x_k + \alpha * d_k)^Td_k \\ & = (A(x_k + \alpha * d_k)-b)^Td_k \\ & = (Ax_k -b +\alpha A d_k)^T d_k \\ & = (\nabla f(x_k) + \alpha A d_k)^T d_k \end{align*}$ 令 $\varphi'(α)=0$ ，则：
  $\begin{align*} \nabla f(x_k)^T d_k + \alpha d_k^T A d_k = 0 \end{align*}$ 解得：
  $α_k = -\frac{\nabla f(x_k)^T d_k}{d_k^T A d_k}$ 这正是最速下降法或共轭梯度法在求解二次规划问题时使用的精确迭代步长公式。对于一般的非线性函数 $f (x)$ ，方程 $\nabla f(x_k + α d_k)^T d_k = 0$ 很难解析求解。
- 数值方法
  当解析解不可行时，则需要使用数值优化技术来求解一维问题 $\min_{α > 0} \varphi (α)$ ，即对 $\varphi (α)$ 这个单变量函数进行优化。常用的方法有：
  - 基于导数的方法 (需要计算 $\varphi '(α)$ 和 $\varphi ''(α)$ )
    1. 牛顿法:
      $\alpha_{j+1}= \alpha_{j} - \varphi '(α_{j}) / \varphi ''(\alpha_{j})$ 迭代该过程直至收敛³，令 $\alpha_k=\alpha_{j+1}$ 。
    2. 割线法:
      $\alpha_{j+1} = \alpha_j - \frac{\varphi'(\alpha_j) (\alpha_j - \alpha_{j-1})}{\varphi'(α_j) - \varphi'(\alpha_{j-1})}$
    3. 求根方法:
      使用二分法或区间收缩法在某个区间内寻找 $\varphi'(\alpha) = 0$ 的根。需要先确定一个包含根的区间 $[a, b]$ 使得 $\varphi'(a)$ 和 $\varphi '(b)$ 异号。
  - 不依赖导数的方法 (只需要 $\varphi(\alpha)$ 的函数值)
    1. 黄金分割法:
      如果已知 $φ (α)$ 在某个区间 $[a, b]$ 内是单峰的，黄金分割法可以通过不断缩小这个区间来逼近最小值点。
    2. 抛物线插值法:
      通过三个点 $(\alpha_1, \varphi(\alpha_1))$ , $(\alpha_2, \varphi(\alpha_2))$ , $(\alpha_3, \varphi(\alpha_3))$ 构造一个二次抛物线，然后取抛物线的极小值点作为新的近似。可以与黄金分割法结合以提高鲁棒性和效率。
$\textbf{特点：}$
- 理论上的最优性: 在给定的搜索方向上，精确线搜索确保了目标函数的最大下降。
- 计算成本高昂: 算法的每一次迭代都执行一次精确线搜索，总的计算量可能非常巨大。
- 对噪声敏感: 如果梯度计算本身带有噪声，那么追求基于噪声方向的“精确”迭代步长意义不大。

非精确线搜索

$\textbf{思想:}$
不追求找到一维最优解，而是寻找一个能给出“足够”函数值下降且满足某些简单条件的步长 $α_k$ 。目标是在保证算法收敛性的前提下，尽快找到一个可接受的步长，以节省计算时间。
$\textbf{常用的准则和方法:}$
- Armijo 条件
  - 思想: 确保步长 $α_k$ 能够带来目标函数值的显著下降。实际的函数下降量至少是基于当前点线性近似所预测的下降量的一个固定比例，其主要作用是防止步长 $\alpha_k$ 过大，避免函数值上升。
  - 数学表达: $f(x_k + α_k d_k) \le f(x_k) + c_1 α_k \nabla f(x_k)^T d_k$ 其中 $c_1$ 是一个小的正数 $0 < c_1 < 1)$ 。 $\nabla f(x_k)^T d_k$ 是函数 $f (x)$ 在 $x_k$ 处沿 $d_k$ 的方向导数（ $\nabla f(x_k)^T d_k <0$ ）
  - 推导过程：
    如下图所示，设 $\phi(\alpha)=f(x_k+\alpha d_k)$ 为 $d_k$ 方向上函数值的变化曲线，根据泰勒展开， $\phi(\alpha)$ 在 $\alpha = 0$ 附近的一阶近似为：
    $\begin{align*} \phi(\alpha) = \phi(0) + \alpha \phi'(0) = f(x_k)+ \alpha \nabla f(x_k)^T d_k \end{align*}$ 令 $l(\alpha) = f(x_k)+ \alpha \nabla f(x_k)^T d_k$ 则 $l(\alpha)$ 表示从点 $0, f(x_k))$ 出发，斜率为 $\nabla f(x_k)^T d_k$ 的一条直线，即图中 $l_{c_1=1}(\alpha)$ 表示的直线。为了保证在步长 $\alpha_k$ 处函数有足够的下降量，即满足 $\phi(\alpha_k) \le l(\alpha_k)$ ，Armijo条件对直线 $l(\alpha)$ 的斜率利用比例 $c_1$ 进行调节，即直线 $l(\alpha)$ 表示为：
    $l(\alpha) = f(x_k)+ c_1 \alpha \nabla f(x_k)^T d_k$ 则直线 $l(\alpha)$ 在图中 $l_{c_1=1}(\alpha)$ 和 $l_{c_1=0}(\alpha)$ 之间变动。根据不同的 $c_1$ 值，在 $\phi(\alpha_k) \le l(\alpha_k)$ 条件下，可以获得不同的可接受步长区间，则 $\alpha_k$ 在该区间内取值。
- 曲率条件
  - 思想: Armijo条件允许 $\alpha$ 任意小，当 $\alpha$ 趋近于0，其总能满足Armijo条件，但会导致算法几乎没有进展。基于该缺陷，曲率条件则通过约束确保步长 $\alpha$ 不能太小。它要求在新的迭代点 $x_k + \alpha_k d_k$ 处的方向导数（沿 $d_k$ 方向）比在 $x_k$ 处的方向导数要平缓。
  - 数学表达： $\nabla f(x_k + \alpha_k d_k)^T d_k \ge c_2 \nabla f(x_k)^T d_k$ 其中 $c_2$ 是一个常数，满足 $c_1 < c_2 < 1$ 。在梯度下降法中 $c_2$ 常取 $0.9$ ，在拟牛顿法中常取 $0.1$ 。
  - 推导过程：
    设 $\phi(\alpha)=f(x_k+\alpha d_k)$ 为 $d_k$ 方向上函数值的变化曲线，由链式法则可知 $\phi(\alpha)$ 在新迭代点 ( $\alpha > 0$ ) 处的斜率为:
    $\phi'(\alpha) = \nabla f(x_k+\alpha d_k)^T d_k$ 则
    $\phi'(0) = \nabla f(x_k)^T d_k$ 表示曲线在起点( $\alpha=0$ )处，沿 $d_k$ 方向的斜率，其值为负。曲率条件设计了公式： $\phi'(\alpha) \ge c_2 \phi'(0)$ 其意味着新迭代点的斜率 $\phi'(\alpha)$ 必须比当前点的斜率 $\phi'(0)$ “更不负一些”（即更平坦或值为正），该条件保证了 $\alpha$ 值足够大。将 $\phi'(\alpha_k)$ 和 $\phi'(0)$ 的定义代入上述条件，就得到了最终的曲率条件公式： $\nabla f(x_k + \alpha_k d_k)^T d_k \ge c_2 \nabla f(x_k)^T d_k$
    $\qquad$ 下图展示了曲率条件所约束的移动步长 $\alpha$ 的取值区间。其通俗解释为：将函数想象成一个具有不同坡度的山谷（负坡度为下降方向）。在当前位置，我们向下走的坡度较大( $- 30$ 度)，走了一步之后，在新的位置其坡度仍然较大( $- 28$ 度)，为了快速到达谷底，那么我们仍然往下走。一直走到某个位置，其坡度较小( $- 5$ 度)，此时我们认为当前地势比较平坦，再往下走所下降的高度比较小（被认为比较接近谷底），因此，我们选择该位置为分界点，超过该分界点的区域被认为是我们想要到达的地方，即图中可接受步长区间。
- Wolfe 条件
  - 思想: 一般而言， $W o l f e 条件 = A r mij o 条件 + 曲率条件$ 为了避免 Armijo 条件可能导致步长 $\alpha_k$ 过小的问题，Wolfe 条件在Armijo条件的基础上引入了曲率条件，从而保证迭代步长既不过大，也不过小。
  - 数学表达:
    $\begin{align*} & f(x_k + \alpha_k d_k) \le f(x_k) + c_1 \alpha_k \nabla f(x_k)^T d_k (Armijo条件) \\ & \nabla f(x_k + \alpha_k d_k)^T d_k ≥ c_2 \nabla f(x_k)^T d_k (曲率条件) \end{align*}$ 其中 $0<c_1< c_2<1$ 。Wolfe条件所刻画的取值区间如下图所示。
- 强 Wolfe 条件
  - 思想: 标准曲率条件是单侧约束，其给斜率设定了一个“下限”，只约束了步长的最小值，当Armijo条件约束过大时， $\phi'(\alpha)$ 可能取值较大。强Wolfe条件中的曲率条件则采用了双侧约束的强曲率条件，通过同时给新斜率 $\phi'(\alpha)$ 设定了下限和上限，使得新斜率的绝对值足够小，即 $\phi'(\alpha)$ 被限制在一个靠近0的区间内。
  - 数学表达:
    $\begin{align*} & f(x_k + \alpha_k d_k) \le f(x_k) + c_1 \alpha_k \nabla f(x_k)^T d_k (Armijo条件) \\ & |\nabla f(x_k + \alpha_k d_k)^T d_k| \le c_2 |\nabla f(x_k)^T d_k| (强曲率条件) \\ \end{align*}$ 由于 $\nabla f(x_k)^T d_k<0$ ，则上面的强曲率条件等价于：
    $c_2 \nabla f(x_k)^T d_k \le \nabla f(x_k + \alpha_k d_k)^T d_k \le -c_2 \nabla f(x_k)^T d_k$
- Goldstein 条件
  - 思想: 与Wolfe设计思想类似，通过构造一个双边不等式给步长 $\alpha$ 限定一个取值区间。
  - 数学表达:
    $f(x_k) + (1-c) \alpha_k \nabla f(x_k)^T d_k \le f(x_k + \alpha_k d_k) \le f(x_k) + c \alpha_k \nabla f(x_k)^T d_k$ 其中 $0 < c < 0.5$ 。令 $\phi(\alpha)=f(x_k+\alpha d_k)$ ，则上式等价为：
    $\phi(0)+(1-c) \alpha_k \phi'(0) \le \phi(\alpha_k) \le \phi(0)+c \alpha_k \phi'(0)$ 该式的右边为Armijo条件，保证了函数值是下降的。如下图所示，从几何的角度该式可理解为，从当前迭代点 $\alpha=0$ 处引出两条不同斜率的直线，则可接受的移动步长位于两条直线所形成区间内。
    图中 $L_1$ 为上界线，斜率为 $\phi'(0)$ ，要求 $(\alpha,\phi(\alpha))$ 处的点位于该线的下方；
    $L_2$ 为下界线，斜率为 $\phi'(0)$ ，要求 $(\alpha,\phi(\alpha))$ 处的点位于该线的上方。如图中所示，GoldStein条件可能会将极值点排除在 $\alpha$ 取值区间外。

信赖域法

$\textbf{思想:}$ 线搜索方法的核心思想是先确定搜索方向，再寻找搜索步长( $x_{k+1}=x_k+\alpha_k d_k$ )，而当Hessian矩阵 $H_k$ 非正定时，此时搜索方向可能不是下降方向，因此线搜索方法需要额外设计复杂的修正策略来处理这种情况。为了避免该问题，信赖域方法则遵循先确定范围，再确定步长( $x_{k+1}=x_k+p_k$ ) 的步骤来寻找优化问题。其大致思路为：在当前迭代点 $x_k$ 附近定义一个“信赖域”（通常是球形或椭球形），在该区域内用一个简单模型 $m_k$ （如二次模型）近似目标函数。然后求解这个模型在信赖域内的最优解，得到迭代位移 $p_k$ 。
$\textbf{数学表达：}$
在当前迭代点 $x_k$ 处，构建一个二次模型 $m_k(p)$ 来近似 $f(x_k+p)$ ：
$m_k(p)=f(x_k)+\nabla f(x_k)^T p + \frac{1}{2} p^T B_k p$ 其中， $B_k$ 是一个近似Hessian矩阵的对称矩阵。则该优化问题将转换为一个如下形式的子优化问题：
$\begin{align*} \min \qquad &m_k(p) \\ s.t. \qquad & ||p||\le \Delta_k \end{align*}$ 其中， $\Delta_k$ 为信赖域半径。该子优化问题的解 $p_k$ 即为本次迭代的候选解。
$\textbf{算法框架:}$
1. 初始化迭代点 $x_0$ ，初始信赖域半径 $\Delta_0$ ，设置接受/拒绝阈值 $\eta$ ， $\eta \in(0,1/4)$ ，最大迭代次数，最大信赖域半径 $\hat{\Delta}$ ；
2. 构建二次模型 $m_k(p) = f(x_k) + \nabla f(x_k)^T p + \frac{1}{2} p^T B_k p$ ;
3. 近似求解 $\min_{\|p\| \le \Delta_k} m_k(p)$ ，得到候选步长 $p_k$ ;
4. 计算 $\rho_k$ ： $\rho_k = \frac{f(x_k) - f(x_k + p_k)}{m_k(0) - m_k(p_k)}$ ;
5. 更新下一迭代点 $x_{k+1}$ :
$\qquad$ 如果 $\rho_k > \eta$ :
$\qquad\qquad$ $x_{k+1} = x_k + p_k$ (接受步长)
$\qquad$ 否则：
$\qquad\qquad$ $x_{k+1} = x_k$ (拒绝步长，停在原地)
6. 更新下一信赖域半径 $\Delta_{k+1}$ ：
$\qquad$ 如果 $\rho_k < 1/4$ :
$\qquad\qquad$ $\Delta_{k+1} = (1/4) \Delta_k$ (模型差，缩小半径)
$\qquad$ 如果 $\rho_k > 3/4$ 并且 $\|p_k\| = \Delta_k$ (在边界上取得好效果):
$\qquad\qquad$ $\Delta_{k+1} = \min(2 \Delta_k, \hat{\Delta})$ (模型好，扩大半径)
$\qquad$ 否则：
$\qquad\qquad$ $\Delta_{k+1} = \Delta_k$ (模型一般，保持半径不变)
7. 检查是否达到终止准则，是，停止迭代；否，转到步骤 $2$ .
$\textbf{特点:}$
- 具有较好的全局收敛性
- 能处理Hessian矩阵非正定的情况

运用到的转置的性质:
- $M+N)^T = M^T + N^T$
- $MN)^T = N^T M^T$
- $MNP)^T = P^T N^T M^T$
↩︎
几个前提：
- $r_{k+1}$ 推导： $r_{k+1} = b - Ax_{k+1} = b - A(x_k + α_k p_k) = (b - Ax_k) - α_k A p_k = r_k - α_k A p_k$ )
- 残差的正交性: $r_i^T r_j = 0, \forall i ≠ j$ ，即迭代产生的残差序列是相互正交的。
- 残差与先前搜索方向的关系: $r_k^T p_j = 0, \forall j < k$ 。
↩︎
收敛性准则：
- 一阶导数足够小： $|\varphi '(\alpha_{j+1})| < \varepsilon_1，\varepsilon_1=10^{-5}$
- 步长变化足够小： $|\alpha_{j+1} - \alpha_j| < \varepsilon_2$
- 函数值变化足够小 : $|\varphi(\alpha_{j+1}) - \varphi(\alpha_j)| < \varepsilon_3$
- 达到最大迭代次数： $\ge T_{max}$
↩︎