非线性最优化基础理论

原创已于 2025-06-03 18:12:26 修改 · 829 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #线性代数

于 2025-05-29 22:09:05 首次发布

非线性最优化基础专栏收录该内容

1 篇文章

订阅专栏

最优化问题中的数学基础

导数

$\textbf{数学定义：}$ 设函数 $y = f (x)$ 在点 $x_0$ 的某个邻域内有定义。则函数在 $x_0$ 处的导数定义为 $f'(x_0)$ ，其数学表达式为：
$f'(x_0)= \lim_{\Delta \rightarrow 0} \frac{\Delta y}{\Delta x}= \lim_{\Delta \rightarrow 0} \frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}$
其中， $\Delta x$ 为自变量 $x$ 在 $x_0$ 处的增量， $\Delta y$ 为函数相应取得的增量.
$\textbf{几何意义：}$ 函数 $y = f (x)$ 在点 $P(x_0, f(x_0))$ 处的导数 $f'(x_0)$ 的几何意义是：曲线 $y = f (x)$ 在点 $P(x_0, f(x_0))$ 处的切线的斜率。

偏导数

偏导数描述了多变量函数沿着某一坐标轴方向的变化率，此时将其他变量视为常数。

$\textbf{数学定义：}$ 对于 $n$ 元函数 $f(x_1, x_2, ..., x_n)$ ，其在点 $P_0(a_1, a_2, ..., a_n)$ 处对变量 $x_i$ 的偏导数为：
$\frac{\partial f(P_0)}{\partial x_i} = \lim_{(h\rightarrow 0)} \frac{f(a_1,\dots, a_i + h, ..., a_n) - f(a_1, ..., a_i, ..., a_n)}{h}$
$\textbf{几何意义：}$ 函数 $z = f (x, y)$ 的图像是一个三维空间中的曲面。
偏导数 $\frac{\partial f}{\partial x}$ 的几何意义为：用平面 $y = y_0$ 去截曲面 $S$ ，得到一条截面曲线 $C_1$ 。这条曲线位于平面 $y = y_0$ 上，其方程可以看作 $z = f (x, y_{0})$ (此时 $y_0$ 是常数， $z$ 仅随 $x$ 变化)。通俗而言，站在山上的某一点 $x_0, y_0)$ ，保持该位置 $y$ 坐标不变，只沿着 $x$ 坐标走。脚下这条路径（截面曲线 $C_1$ ）在当前点的坡度就是函数 $f$ 对 $x$ 方向的偏导数

方向导数

方向导数描述了函数在某一点沿特定方向的瞬时变化率，其数学定义为：
$\qquad$ 设 $f$ 是一个定义在 $R^n$ 中的多元函数， $P_0$ 是定义域内的一点， $u$ 为一个单位方向向量，则函数 $f$ 在点 $P_0$ 沿方向 $u$ 的方向导数 $D_u f(P_0)$ 定义为：
$D_u f(P_0) = \lim_{(h \rightarrow 0)}\frac{f(P_0 + h*u) - f(P_0)}{h}$
Alt

图片引用自： https://pic4.zhimg.com/v2-f815c6d5a4294a05fc23a407b7550d11_1440w.jpg

梯度

$\textbf{数学定义：}$ 对于 $n$ 维空间 $R^n$ 中的函数 $f(\textbf{x})$ ，其中 $\textbf{x} = (x_1, x_2, \dots, x_n)^T$ ，如果 $f$ 在点 $x$ 的所有偏导数都存在，则 $f$ 在点 $x$ 的梯度 $\nabla f(\textbf{x})$ 或 $f(\textbf{x})$ 定义为：
$\nabla f(\textbf{x}) = (\partial f/\partial x_1, \partial f/\partial x_2, \dots, \partial f/\partial x_n)^T$
其中， $\partial f/\partial x_i$ 表示函数 $f$ 关于变量 $x_i$ 的偏导数。
$\textbf{几何意义：}$ 在函数定义域内的某一点 $x$ ，梯度向量 $\nabla f(\textbf{x})$ 指向该点函数值增长最快的方向。梯度向量的模 $||\nabla f(x)||$ 表示在这个最快增长方向上的增长率，其计算为：
$||\nabla f(x)|| = \sqrt{(\partial f/\partial x_1)^2, (\partial f/\partial x_2)^2, \dots, (\partial f/\partial x_n)^2}$
$\textbf{与方向导数的关系：}$ 函数 $f$ 在点 $x$ 沿方向 $u$ 的方向导数 $D_u f(x)$ 可以通过梯度计算：
$D_u f(x) = \nabla f(x) \cdot u = ||\nabla f(x)||\cdot||u||\cdot \cos(θ) = ||\nabla f(x)||\cdot \cos(\theta)$
其中， $\theta$ 是梯度向量 $\nabla f(x)$ 与方向向量 $u$ 之间的夹角。
- 当 $u$ 与 $\nabla f(x)$ 方向相同时 ( $\theta = 0, \cos(\theta) = 1$ )，方向导数取得最大值 $||\nabla f(x)||$ .
- 当 $u$ 与 $\nabla f(x)$ 方向相反时 ( $\theta = \pi, \cos(\theta) = -1$ )，方向导数取得最小值 $-||\nabla f(x)||$ ，这表明 $-\nabla f(x)$ 指向函数值减小最快的方向.
- 当 $u$ 与 $\nabla f(x)$ 正交时 ( $\theta = \frac{\pi}{2}, \cos(\theta) = 0$ )，方向导数为 $0$ ，表示在该方向函数值瞬时不变.
- 总结：梯度是一个方向向量，定义了函数上升最快的方向，在这个方向上函数有最大的变化率，其数值等于梯度的模.

Hessian矩阵

海森矩阵是一个方阵，由一个多元函数的二阶偏导数组成。它描述了函数的局部曲率。
$\qquad$ 假设一个 $n$ 元实值函数 $f(\textbf{x})$ ，其中 $\textbf{x} = (x_1, x_2, ..., x_n)^T$ 是一个 $n$ 维向量。如果函数 $f$ 的所有二阶偏导数都存在且连续，则其Hessian矩阵 $H(\textbf{x})$ 或 $\nabla^2 f(\textbf{x})$ 定义为一个 $n \times n$ 的对称矩阵：
$\begin{align*} H(\textbf{x})= \begin{pmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\ \vdots & \vdots & \vdots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \\ \end{pmatrix} \end{align*}$ 其中，矩阵的第 $(i, j)$ 个元素是 $\frac{\partial^2 f}{\partial x_i \partial x_j}$ .

Hessian矩阵的几何意义

Hessian矩阵在某一点的值，描述了该点附近函数图像的局部曲率或弯曲程度。

$\textbf{与二次型的联系：}$
多变量函数的二阶泰勒展开式在某点 $x_0$ 附近可以近似表示为：
$\approx f(x_0) + \nabla f(x_0)^T(x - x_0) + \frac{1}{2}(x - x_0)^T H(x_0) (x - x_0)$
其中： $\nabla f(x_0)$ 是梯度向量，表示函数在 $x_0$ 处的线性变化率。 $H(x_0)$ 是Hessian矩阵在 $x_0$ 处的值。 $x - x_0)^T H(x_0) (x - x_0)$ 是一个二次型，它决定了函数在梯度为零的点（临界点）附近的形状。
$\textbf{Hessian矩阵的特征值与曲率方向：}$
Hessian矩阵是实对称矩阵，其特征值都是实数，并且存在一组正交的特征向量。特征向量指示了函数在 $x_0$ 点附近主要的弯曲方向（主曲率方向）；特征值对应于这些主曲率方向上的曲率大小。
- 正特征值：表示在该特征向量方向上，函数图像是向上弯曲的。特征值越大，弯曲越剧烈。
- 负特征值：表示在该特征向量方向上，函数图像是向下弯曲的。特征值的绝对值越大，弯曲越剧烈。
- 零特征值：表示在该特征向量方向上，函数图像可能是平坦的，或者弯曲情况更复杂，需要更高阶导数来判断。
$\textbf{Hessian矩阵的正定性/负定性与函数形状：}$
Hessian矩阵在某点 $x_0$ 的性质（正定、负定等）直接关系到该点附近函数的局部形状，其中，必要的前提是 $\nabla f(x_0) = 0$ ，意味着函数在该点的所有方向上的导数均为 $0$ ，即该点是一个临界点：
- $H(x_0)$ 是正定矩阵: 所有特征值都为正。这意味着在 $x_0$ 的所有方向上，函数都是向上弯曲的。如果 $\nabla f(x_0) = 0$ ，则 $x_0$ 是一个严格局部极小点。函数图像在 $x_0$ 附近像一个朝上的碗口。
- $H(x_0)$ 是负定矩阵: 所有特征值都为负。这意味着在 $x_0$ 的所有方向上，函数都是向下弯曲的。如果 $\nabla f(x_0) = 0$ ，则 $x_0$ 是一个严格局部极大点。函数图像在 $x_0$ 附近像一个倒扣的碗口（或山峰）。
- $H(x_0)$ 是不定矩阵: 特征值中既有正的也有负的。这意味着在某些方向上函数向上弯曲，在另一些方向上函数向下弯曲。如果 $\nabla f(x_0) = 0$ ，则 $x_0$ 是一个鞍点。函数图像在 $x_0$ 附近像一个马鞍。
- $H(x_0)$ 是半正定矩阵: 所有特征值非负，且至少有一个为零。如果 $\nabla f(x_0) = 0$ ， $x_0$ 可能是局部极小点，也可能不是（例如 $f(x) = x^3$ 在 $x = 0$ ）。函数图像在某些方向上可能是平坦的。
- $H(x_0)$ 是半负定矩阵: 所有特征值非正，且至少有一个为零。如果 $\nabla f(x_0) = 0$ ， $x_0$ 可能是局部极大点，也可能不是。

泰勒展开

泰勒展开的定义与核心思想

泰勒展开的核心思想是用一个多项式函数来逼近一个在某点附近具有足够阶数导数的函数。这个多项式的系数由函数在该点的各阶导数值决定。
如果一个函数 $f (x)$ 在点 $x_0$ 处具有 $n$ 阶导数，那么 $f (x)$ 在 $x_0$ 点的 $n$ 阶泰勒展开式为：
$P_n(x) = f(x_0) + f^{'}(x_0)(x - x_0) + \frac{f^{''}(x_0)}{2!}(x - x_0)^2 + \cdots + \frac{f^n(x_0)}{n!})(x - x_0)^n$
可以更紧凑地写作：
$P_n(x) = \sum_{k=0}^{n} \frac{f^k(x₀)}{k!}(x - x₀)^k$
其中： $f^k(x_0)$ 表示函数 $f$ 在点 $x_0$ 处的 $k$ 阶导数且 $f^0(x₀) = f(x₀)$ 。当泰勒展开的点 $x_0 = 0$ 时，得到的特殊形式称为麦克劳林展开:
$P_n(x) = f(0) + f^{'}(0)x + \frac{f^{''}(0)}{2!}x² + \cdots + \frac{f^n(0)}{n!}x^n$

泰勒定理与余项

泰勒多项式 $P_n(x)$ 是对 $f (x)$ 的一个近似。泰勒定理精确地描述了这个近似的误差，该误差被称为余项或截断误差，记作 $R_n(x)$ ，则基于泰勒定理的函数 $f (x)$ 的表达式为：
$f(x) = P_n(x) + R_n(x)$ 即
$\sum_{k=0}^{n} \frac{f^k(x₀)}{k!}(x - x₀)^k + R_n(x)$ 余项 $R_n(x)$ 最常见的两种表达形式为是：

拉格朗日余项:
如果 $f$ 在包含 $x_0$ 和 $x$ 的闭区间上 $n + 1$ 阶可导，则余项可以表示为：
$R_n(x) = \frac{f^{n+1}(\xi)}{(n+1)!}(x - x_0)^{n+1}$ 其中 $\xi$ 是一个介于 $x_0$ 和 $x$ 之间的某个数。这个形式的余项表明，误差与 $x - x_0)^{n+1}$ 和函数在某未知点的 $n + 1$ 阶导数有关。
佩亚诺余项:
如果 $f$ 在 $x_0$ 处 $n$ 阶可导，则余项可以表示为：
$R_n(x) = o((x - x₀)^n)$ 这意味着
$\lim_{(x\rightarrow x_0)}\frac{R_n(x)}{(x - x₀)^n}= 0$
皮亚诺余项表明，当 $x$ 趋近于 $x_0$ 时，余项是比 $x - x_0)^n$ 更高阶的无穷小量。它描述了误差的阶次，但不给出具体的误差界。

如果函数 $f (x)$ 在 $x_0$ 处无穷阶可导，并且当 $\rightarrow \infty$ 时，余项 $R_n(x) \rightarrow 0$ ，则泰勒展开式可以写成无穷级数，称为 $f (x)$ 在 $x_0$ 点的泰勒级数：
$=\sum_{k=0}^{\infty} \frac{f^k(x_0)}{k!}(x - x_0)^k$ 在这种情况下，泰勒级数精确地等于原函数 $f (x)$ 。

泰勒展开的几何意义

泰勒展开的几何意义在于，用一系列越来越精确的多项式函数来局部地逼近原函数的图像。泰勒多项式 $P_n(x)$ 在 $x_0$ 点与原函数 $f (x)$ 具有相同的前 $n$ 阶导数值。

零阶泰勒展开 $(n = 0)$ :
$P_0(x) = f(x_0)$
几何意义：用一个常数函数（一条水平线）来近似 $f (x)$ 在 $x_0$ 附近的值。这条水平线通过点 $x_0, f(x_0))$ ，这是最粗糙的近似。
一阶泰勒展开 $(n = 1)$ :
$P_1(x) = f(x_0) + f^{'}(x_0)(x - x_0)$
几何意义：用一条直线来近似 $f (x)$ 在 $x_0$ 附近的图像。这条直线就是函数 $f (x)$ 在点 $x_0, f(x_0))$ 处的切线，这个线性近似捕捉了函数在 $x_0$ 点的局部线性和变化趋势（由导数 $f^{'}(x₀)$ 决定斜率）。
二阶泰勒展开 $(n = 2)$ :
$P_2(x) = f(x_0) + f^{'}(x_0)(x - x_0) + \frac{f^{''}(x_0)}{2!}(x - x_0)^2$
几何意义：用一个二次函数（一条抛物线）来近似 $f (x)$ 在 $x_0$ 附近的图像。这个抛物线不仅在 $x_0$ 点与原函数有相同的函数值和一阶导数值，而且还具有相同的二阶导数值。这个二次近似比线性近似能更好地捕捉函数的局部弯曲特性。
二阶导数 $f^{''}(x_0)$ 描述了函数图像在 $x_0$ 点的曲率或弯曲程度。
- 如果 $f^{''}(x_0)>0$ ，抛物线开口向上，表示函数在该点局部是向上弯曲的（凸的）。
- 如果 $f^{''}(x_0)<0$ ，抛物线开口向下，表示函数在该点局部是向下弯曲的（凹的）。
- 如果 $f^{''}(x_0)=0$ ，抛物线退化为直线（如果 $f^{'}(x_0)$ 非零）或水平线（如果 $f^{'}(x_0)$ 也为零），弯曲情况不明显，可能需要更高阶项。
高阶泰勒展开 $(n > 2)$ :
随着阶数 $n$ 的增加，泰勒多项式 $P_n(x)$ 会使用更高阶的导数信息，从而在 $x_0$ 点附近能够更精确地拟合原函数 $f (x)$ 的形状，捕捉更细微的弯曲和变化特征。
总结：
- 常数项 $f(x_0)$ : 定位了函数在 $x_0$ 点的高度。
- 一次项 $f^{'}(x_0)(x - x_0)$ : 描述了函数在 $x_0$ 点的局部线性趋势（切线）。
- 二次项 $\frac{f^{''}(x_0)}{2!}(x - x_0)^2$ : 描述了函数在 $x_0$ 点的局部弯曲程度（曲率）。
- 更高次项: 描述了更细致的局部形状特征。

多变量函数的泰勒展开

泰勒展开的思想推广到多变量函数。对于一个 $n$ 元函数 $f(\textbf{x})$ ，其中 $\textbf{x} = (x_1, \cdots, x_n)^T$ ，在点 $\textbf{x}_0$ 附近的泰勒展开式（以二阶为例）：
$f(\textbf{x}) \approx f(\textbf{x}_0) + \nabla f(\textbf{x}_0)^T(\textbf{x} - \textbf{x}_0) + \frac{1}{2}(\textbf{x} - \textbf{x}_0)^T H(\textbf{x}_0) (\textbf{x} - \textbf{x}_0)$
其中： $\nabla f(\textbf{x}_0)$ 是函数 $f$ 在 $\textbf{x}_0$ 点的梯度向量，是一个列向量，包含了所有一阶偏导数：
$\nabla f(\textbf{x}_0) = [\frac{\partial f(\textbf{x}_0)}{\partial x_1}，\frac{\partial f(\textbf{x}_0)}{\partial x_2}，\cdots , \frac{\partial f(\textbf{x}_0)}{\partial x_n}]^T$
$H(x_0)$ 是函数 $f$ 在 $x_0$ 点的Hessian矩阵，包含了所有二阶偏导数， $x - x_0)$ 是位移向量。

$\textbf{几何意义：}$

零阶展开 $f(x_0):$ 函数在 $x_0$ 点的值。
一阶展开 $f(x_0) + \nabla f(x_0)^T(x - x_0):$
- 一个线性函数，其图像是一个切超平面，它在点 $x_0, f(x_0))$ 处与函数 $f (x)$ 的曲面相切。
- 梯度 $\nabla f(x_0)$ 指向函数 $f (x)$ 在 $x_0$ 点增长最快的方向，其大小表示增长的速率。
二阶展开 $f(x_0) + \nabla f(x_0)^T(x - x_0) + \frac{1}{2}(x - x_0)^T H(x_0) (x - x_0):$
- 一个二次函数，其图像是一个二次曲面 (例如椭球面、抛物面、双曲面等)，其在 $x_0$ 点附近更好地逼近原函数的曲面。
- Hessian矩阵 $H(x_0)$ 描述了函数曲面在 $x_0$ 点的局部曲率。 $H(x_0)$ 的特征值和特征向量决定了曲面的主曲率方向和大小。
  - $H(x_0)$ 正定，曲面在 $x_0$ 附近局部向上凸
  - $H(x_0)$ 负定，曲面在 $x_0$ 附近局部向下凹
  - $H(x_0)$ 不定，曲面在 $x_0$ 附近呈鞍形

最优化问题的基本概念

最优化问题数学模型

$\begin{align*} &目标函数：\min f(x) \\ &约束条件：\text{s.t.} x \in \Omega(可行域) := \begin{cases} g_i(x) \le 0,i=1,2,\dots,p \quad （不等式约束）\\ h_j(x)=0,j=1,2,\dots,q \quad （等式约束） \end{cases} \end{align*}$

最优化问题的最优解

对于最小化问题，最优解 $x^*$ 分别定义为：

局部最优解：在可行域内的一个点 $x^*$ ，使得在其某个邻域内的所有可行点 $x^*+ \delta$ ，都有 $f(x^*) ≤ f(x^*+\delta)$ 。
全局最优解: 在整个可行域内的一个点 $x^*$ ，使得对于所有可行点 $x$ ，都有 $f(x^*) \le f(x)$ .
严格局部/全局最优解: 上述不等式为严格不等式 (<)。

凸优化

凸集

$\textbf{定义：}$ 集合 $\subseteq R^n$ 被称为凸集，如果对于集合 $C$ 中的任意两点 $x_1, x_2$ ，连接这两点的线段上的所有点也都属于集合 $C$ 。其数学表达为：对于任意 $x_1, x_2 \in C$ 和任意 $\theta \in [0, 1]$ ，都有
$\theta x_1 + (1 - \theta)x_2 \in C$ 表达式 $\theta x_1 + (1 - \theta)x_2$ 被称为 $x_1$ 和 $x_2$ 的凸组合。

凸组合

$\textbf{定义：}$ 给定 $R^n$ 空间中的 $k$ 个点 $x_1, x_2, \cdots, x_k$ ，这些点的一个凸组合是一个新的点 $x$ ，其数学表达形式为：
$\theta_1 x_1, \theta_2 x_2, \cdots, \theta_k x_k$ 其中

非负性: $θ_i \ge 0$ ; $\forall i = 1, 2, \cdots, k$
和为一: $\sum_{i=1}^{k}{\theta_i}=1$

凸函数

$\textbf{定义：}$ 一个定义在凸集 $C$ 上的函数 $\rightarrow R$ 被称为凸函数，如果对于任意 $x_1, x_2 \in C$ 和任意 $\alpha \in [0, 1]$ ，都有
$f(\alpha x_1 + (1 - \alpha)x_2) \le \alpha f(x_1) + (1 - \alpha)f(x_2)$ 直观上，函数图像上任意两点之间的弦都在这两点之间的函数图像的上方。

严格凸函数: 不等式严格成立 (即 <)
凹函数: 如果 -f 是凸函数，则 f 是凹函数。不等式方向相反 $f(\alpha x_1 + (1 - \alpha)x_2) \ge \alpha f(x_1) + (1 - \alpha)f(x_2)$ 。

$\textbf{凹/凸函数的实例：}$
在这里插入图片描述
$\textbf{凸性的判断：}$

一阶条件: 如果 $f$ 可微，则 $f$ 是凸函数的充要条件是其定义域是凸集，且对于任意 $\in dom(f)$ ，有 $\ge f(x) + \nabla f(x)^T(y - x)$ 。
二阶条件: 如果 $f$ 二次可微，则 $f$ 是凸函数的充要条件是其定义域是凸集，且其 Hessian 矩阵 $\nabla^2 f(x)$ 在定义域内处处半正定 $(\nabla^2 f(x) \succeq 0)$ 。

凸优化问题

$\textbf{定义：}$ 一个优化问题被称为凸优化问题，如果它的目标函数是凸函数，并且可行域是一个凸集。其标准形式为：
$\begin{align*} \min \quad &f(\textbf{x}) \\ s.t. \quad &g_i(\textbf{x}) \le 0, i = 1, \cdots, m \\ &h_j(\textbf{x}) = 0, j = 1, \cdots, p \end{align*}$

$\textbf{x} \in R^n$ 是优化变量
$f(\textbf{x})$ 是凸的目标函数
$g_i(\textbf{x})$ 是凸的不等式约束函数
$h_j(\textbf{x})$ 是仿射的等式约束函数，即 $h_j(\textbf{x}) = \textbf{a}_j^T \textbf{x} - b_j$