等式约束优化

最新推荐文章于 2024-10-17 12:53:27 发布

原创最新推荐文章于 2024-10-17 12:53:27 发布 · 7.4k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#凸优化

凸优化同时被 2 个专栏收录

9 篇文章

订阅专栏

凸优化--机器学习数学基础

9 篇文章

订阅专栏

本文探讨了等式约束优化问题，特别是凸二次规划。介绍了如何通过消除等式约束转化为无约束问题以及使用对偶方法求解。还详细讲解了等式约束的Newton方法，包括Newton方向的定义和计算，以及处理不可行初始点的情况。文章强调了直接处理等式约束有时优于转化后的无约束问题，因为它能保持问题的结构。

介绍等式约束优化的求解。

等式约束优化问题

min f (x)

$\min f(x)$

s . t . A x = b

$s.t.\quad Ax=b$

其中 $f$ 为二次可微凸函数，假设等式约束少于变量数，并且等式约束互相独立。假定存在一个最优解 $x^\star$ ，并用 $p^\star$ 表示其最优值，即：

p ⋆ = inf {f (x) | A x = b} = f (x ⋆)

$p^\star = \inf \{f(x) | Ax = b\} = f(x^\star)$

由KKT条件，其最优解的重要条件是满足：

A x ⋆ = b ▽ f (x ⋆) + A T v ⋆ = 0

$Ax^\star = b \quad \triangledown f(x^\star) + A^Tv^\star = 0$

对于求解等式约束问题有两种方法：

任何等式约束优化问题都可以通过消除等式约束转化为等价的无约束问题。
使用对偶方法解决。

很多时候，直接处理等式约束比转化为无约束问题要好，这是因为转化之后可能会破坏问题的结构。

等式约束凸二次规划

$\min f(x) = (1/2)x^TPx+q^Tx+r$

s . t . A x = b

$s.t. \quad Ax= b$

此问题的最优性条件为：

A x ⋆ = b P x ⋆ + q + A T v ⋆ = 0

$Ax^\star =b \quad Px^\star+q+A^Tv^\star = 0$

可以将其写成矩阵形式：

[P A A T 0] [x ⋆ v ⋆] = [- q b]

$\begin{bmatrix}P &A^T \\ A&0 \end{bmatrix}\begin{bmatrix}x^\star\\v^\star \end{bmatrix} = \begin{bmatrix}-q\\b \end{bmatrix}$

这个矩阵称为KKT矩阵，接下来会经常用到。

消除等式约束

我们以参数化可行集的形式表示等式约束：

{x|Ax=b}={Fz+x^} { x | A x = b } = { F z + x ^ }

$\{x|Ax=b\}=\{Fz+\hat x\}$

其中 $\hat x$ 为任意特解， $F$ 为 $A$ 的零空间的任意矩阵，可以消除等式约束为：

min f^(z) = f (F z + x^)

$\min \hat f(z) = f(Fz + \hat x)$

这里的变量 $z$ 没有约束，利用它的解 $z^\star$ 可以确定等式约束问题的解 $x^\star = Fz^\star + \hat x$

对偶方法求解等式约束

可得约束问题的对偶函数为：

g (v) = - b T v + inf x (f (x) + v T A x) = - b T x - sup x ((- A T v) T x - f (x)) = - b T v - f ⋆ (- A T v) (21) (22) (23)

$\begin{align}g(v) &= -b^Tv + \inf_{x}(f(x)+v^TAx) \\& =-b^Tx-\sup_x((-A^Tv)^Tx - f(x))\\&= -b^Tv - f^\star(-A^Tv) \end{align}$

因此，对偶问题为：

max - b T v - f ⋆ (- A T v)

$\max -b^Tv - f^\star(-A^Tv)$

若Slater条件成立，则强对偶性成立，即 $g(v^\star) = p^\star$

等式约束的Newton方法

讨论扩展的Newton方法，与之前无约束类似，但初始点必须可行（即满足 $Ax=b$ ），并且需要保证Newton方向是可行的方向，即 $A\Delta x_{nt} = 0$

Newton方向

基于二阶近似的定义

将目标函数换成在其 $x$ 附近的二阶Taylor近似：

min \hat{f} (x + v) = f (x) + ▽ f (x)^{T} v + (1 / 2) v^{T} ▽^{2} f (x) v

$\min \hat f(x+v) = f(x) +\triangledown f(x)^Tv + (1/2)v^T\triangledown ^2f(x) v$

s . t . A (x + v) = b

$s.t.\quad A(x+v) =b$

根据之前对等式约束二次问题的分析，得到KKT矩阵：

[▽ 2 f (x) A A T 0] [Δ x n t w] = [- ▽ f (x) 0]

$\begin{bmatrix}\triangledown^2 f(x) &A^T \\ A&0 \end{bmatrix}\begin{bmatrix}\Delta x_{nt}\\w \end{bmatrix} = \begin{bmatrix}-\triangledown f(x)\\0 \end{bmatrix}$

线性化最优性条件的解

可以将Newton方向 $\Delta x_{nt}$ 解释为最优性条件：

A x ⋆ = b ▽ f (x ⋆) + A T v ⋆ = 0

$Ax^\star =b \quad \triangledown f(x^\star)+A^Tv^\star = 0$

我们用 $x+\Delta x_{nt}$ 替代 $x^\star$ ，用 $w$ 替代 $v^\star$ ，将梯度换为二阶近似，得到：

A (x + Δ x n t) = b, ▽ f (x + Δ x n t) + A T w \approx ▽ f (x) + ▽ 2 f (x) Δ x n t + A T w = 0

$A(x+\Delta x_{nt} )= b,\quad \triangledown f(x+\Delta x_{nt}) + A^Tw\approx \triangledown f(x) + \triangledown^2 f(x)\Delta x_{nt}+A^Tw = 0$

利用 $Ax = b$ ,上式变为：

A Δ x n t = 0 ▽ 2 f (x) Δ x n t + A T w = - ▽ f (x)

$A\Delta x_{nt} = 0\quad \triangledown^2 f(x)\Delta x_{nt}+A^Tw= -\triangledown f(x)$

这和上面的KKT矩阵完全一样。

Newton减量

λ (x) = (Δ x T n t ▽ 2 f (x) Δ x n t) 1 / 2

$\lambda(x) = (\Delta x_{nt}^T\triangledown^2 f(x)\Delta x_{nt})^{1/2}$

这和无约束问题的Newton减量完全一样。因此也可以进行同样的解释。可参考这里。

等式约束的Newton方法

给定初始点 $x \in dom f$ ，误差阈值 $\epsilon >0$
计算Newton步径和减量
停止准则：如果 $\lambda^2/2\le \epsilon$ ，退出
直线搜索，根据回溯直线搜索确定步长 $t$
改进： $x:=x + t\Delta x_{nt}$

不可行初始点的Newton方法

不可行点的Newton方向

和Newton方法一样，我们从等式约束优化的最优性条件开始：

A x ⋆ = b ▽ f (x ⋆) + A T v ⋆ = 0

$Ax^\star =b \quad \triangledown f(x^\star)+A^Tv^\star = 0$

用 $x$ 表示当前点，不假设它是可行的，因此我们的目的是找到一个方向 $\Delta x$ 使得 $x+\Delta x$ 满足最优性条件，即 $x + \Delta x\approx x^\star$ 。因此我们用 $x + \Delta x$ 代替 $x^\star$ ，并利用梯度的一阶近似：

A (x + Δ x) = b x ▽ f (x) + ▽ 2 f (x) Δ x + A T w = 0

$A(x+\Delta x) = b\quad x \triangledown f(x) +\triangledown ^2f(x)\Delta x+A^Tw = 0$

写成矩阵形式为：

[▽ 2 f (x) A A T 0] [Δ x w] = - [▽ f (x) A x - b]

$\begin{bmatrix}\triangledown^2 f(x) &A^T \\ A&0 \end{bmatrix}\begin{bmatrix}\Delta x\\w \end{bmatrix} = -\begin{bmatrix}\triangledown f(x)\\Ax-b \end{bmatrix}$

与之前的KKT矩阵的差别在于 $Ax-b$ ，表示为残差向量。