凸优化学习笔记_chapter10_带等式约束凸优化问题1

本文链接：https://blog.youkuaiyun.com/xiaofei473/article/details/105899102

chapter 10 Equality constrained minimization

主要研究带等式约束的凸优化问题

10.1 Equality constrained minimization problems

描述形式如下
$\begin{aligned} &\text{minimize}\quad f(x)\\ &\text{subject to}\quad Ax=b \end{aligned}\tag{1}$

$f:\mathbb{R^n}\rightarrow\mathbb{R}$ ， $A\in\mathbb{R}^{p\times n}$ ， $p < n$ ， $A$ 的秩为 $p$ （即有 $p$ 个线性无关的约束条件）。根据第5章的对偶理论（KKT条件）， $x^*\in\mathbf{dom}f$ 是最优解当且仅当存在 $\nu^*\in\mathbb{R}^p$ 使得
$Ax^*=b,\quad \nabla f(x^*)+A^\mathrm{T}\nu^*=0\tag{2}$

式(2)是关于 $n + p$ 个未知数的 $n + p$ 个方程。

当 $f (x)$ 为二次函数（不得不承认一点，二次函数是容易处理的情形，很多时候我们都会想办法往二次函数上靠），即 $f(x)=(1/2)x^\mathrm{T}Px+q^\mathrm{T}x+r$ ， $P$ 为正定矩阵时，式(2)为线性方程组
$\bar{A}\begin{bmatrix} x^*\\ \nu \end{bmatrix}=\begin{bmatrix} P & A^\mathrm{T}\\ A & 0 \end{bmatrix} \begin{bmatrix} x^*\\ \nu \end{bmatrix}=\begin{bmatrix} -q\\ b \end{bmatrix}\tag{3}$

凸优化中但凡涉及到线性方程或者矩阵时，一定要想到矩阵的值空间和零空间这两个概念，对于方程(3)的解，显然可以根据矩阵 $\bar{A}$ 的性质分为三种情况：唯一解、不唯一解、无解，对于无解的情形，说明 $[-q,b]^\mathrm{T}$ 不在矩阵 $\bar{A}$ 的值空间中，也就是说存在某个矩阵 $\bar{A}$ 零空间的向量 $[v,w]^\mathrm{T}$ ，其和 $[-q,b]^\mathrm{T}$ 的内积不为零，即
$Pv+A^\mathrm{T}w=0,\quad Av=0,\quad -q^\mathrm{T}v+b^\mathrm{T}w>0\tag{4}$

由于方程 $A x = b$ 在 $f (x)$ 的定义域内肯定有解（否则原优化问题没有意义了），即存在可行点，设 $\hat{x}$ 为任意可行点，则根据 $A v = 0$ 可知对任意 $t$ ， $x=\hat{x}+tv$ 也为可行点，那么
$\begin{aligned} f(\hat{x}+tv)&=(1/2)(\hat{x}+tv)^\mathrm{T}P(\hat{x}+tv)+q^\mathrm{T}(\hat{x}+tv)+r\\ &=f(\hat{x})+t(v^\mathrm{T}P\hat{x}+q^\mathrm{T}v)+(1/2)t^2v^\mathrm{T}Pv\\ &=f(\hat{x})+t(-\hat{x}^\mathrm{T}A^\mathrm{T}w+q^\mathrm{T}v)-(1/2)t^2w^\mathrm{T}Av\\ &=f(\hat{x})+t(-b^\mathrm{T}w+q^\mathrm{T}v) \end{aligned}\tag{5}$

显然，当 $t\rightarrow\infty$ 时， $f(\hat{x}+tv)$ 的取值趋于 $-\infty$ 。

求解问题(1)的一个思路是消除等式约束 $A x = b$ ，将问题转化为无约束问题。首先寻找 $A x = b$ 的一个特解 $\hat{x}$ ，以及矩阵 $F$ ，其值空间为 $A$ 的零空间，即 $\mathcal{R}(F)=\mathcal{N}(A)$ ，则满足等式约束 $A x = b$ 的解可表示为
$\{x\vert Ax=b\}=\{Fz+\hat{x}\vert z\in\mathbb{R}^{n-p}\}\tag{6}$

则原优化目标函数可转化为 $\tilde{f}(z)=f(Fz+\hat{x})$ ，即关于 $z$ 的无约束优化问题，设其最优解为 $z^*$ ，满足 $Fz^*+\hat{x}=x^*$ ，从而有 $\nabla\tilde{f}(z^*)=F^\mathrm{T}\nabla f(x^*)=0$ 。

也可以考虑求解对偶方程，即式(2)，由于 $\mathbf{rank}A=p$ ，矩阵 $AA^\mathrm{T}$ 为非奇异的，根据式(2)中的 $\nabla f(x^*)+A^\mathrm{T}\nu^*=0$ 可得 $A\nabla f(x^*)+AA^\mathrm{T}\nu^*=0$ ，从而 $\nu^*=-(AA^\mathrm{T})^{-1}A\nabla f(x^*)$ ，这个解其实严格符合原方程 $\nabla f(x^*)+A^\mathrm{T}\nu^*=0$ ，注意到 $A F = 0$ ，有
$F^\mathrm{T}\nabla f(x^*)=0,F^\mathrm{T}A^\mathrm{T}=0\Rightarrow F^\mathrm{T}(\nabla f(x^*)+A^\mathrm{T}\nu^*)=0\tag{7}$

结合 $A\nabla f(x^*)+AA^\mathrm{T}\nu^*=0$ 可得
$\begin{bmatrix} F^\mathrm{T}\\ A \end{bmatrix}(\nabla f(x^*)+A^\mathrm{T}\nu^*)=0\tag{8}$

由于矩阵 $[F\;A^\mathrm{T}]^\mathrm{T}$ 非奇异，因此方程 $\nabla f(x^*)+A^\mathrm{T}\nu^*=0$ 严格满足。

求解问题(1)的另一个思路是求解对偶，其对偶函数为
$\begin{aligned} g(\nu)&=-b^\mathrm{T}\nu+\inf_x(f(x)+\nu^\mathrm{T}Ax)\\ &=-b^\mathrm{T}\nu-\sup_x((-A^\mathrm{T}\nu)^\mathrm{T}x-f(x))\\ &=-b^\mathrm{T}\nu-f^*(-A^\mathrm{T}\nu) \end{aligned}\tag{9}$

其中 $f^*$ 为 $f$ 的共轭，注意其定义为 $f^*(y)=\displaystyle\sup_{x\in\mathbf{dom}f}(y^\mathrm{T}x-f(x))$ ，则相应的对偶问题为
$\text{maximize}\quad -b^\mathrm{T}\nu-f^*(-A^\mathrm{T}\nu)\tag{10}$

若原问题严格可解，即对偶间隙为0，则对偶函数的最优值与原问题目标函数的最优值相等。

10.2 Newton’s method with equality constraints

一、用牛顿法求解带等式约束的凸优化问题(1)，有两种典型思路：

第1种思路是首先找一个可行点 $x$ （满足 $A x = b$ ）将目标函数在 $x$ 处进行二次近似，即优化问题转化为
$\begin{aligned} &\text{minimize}\quad \hat{f}(x+v)=f(x)+\nabla f(x)^\mathrm{T}v+(1/2)v^\mathrm{T}\nabla^2f(x)v\\ &\text{subject to}\quad A(x+v)=b \end{aligned}\tag{11}$

问题(11)是关于 $v$ 的二次优化问题，将其最优解作为下一步迭代的方向 $\Delta x_\mathrm{nt}$ ，获取最优解可以沿用10.1中的做法，即 $\Delta x_\mathrm{nt}$ 满足
$\begin{bmatrix} \nabla^2f(x) & A^\mathrm{T}\\ A & 0 \end{bmatrix} \begin{bmatrix} \Delta x_\mathrm{nt}\\ w \end{bmatrix}=\begin{bmatrix} -\nabla f(x)\\ 0 \end{bmatrix}\tag{12}$

其中 $w$ 为对偶变量。
第2种思路是近似求解方程(2)，用 $x+\Delta x_\mathrm{nt}$ 替代 $x^*$ ， $w$ 替代 $\nu^*$ ，梯度项用一阶泰勒近似，即有
$\begin{aligned} &\quad A(x+\Delta x_\mathrm{nt})=b,\\ &\quad\nabla f(x+\Delta x_\mathrm{nt})+A^\mathrm{T}w\\ &\approx\nabla f(x)+\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w\\ &=0 \end{aligned}\tag{13}$

进一步可得
$A\Delta x_\mathrm{nt}=0,\quad\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w=-\nabla f(x)\tag{14}$

比较式(12)和(14)可知，对目标函数和KKT条件进行适当近似，获得的结果是一样的。
前面两种思路获得的 $\Delta x_\mathrm{nt}$ 必定是可行方向，因为根据式(12)和(14)可知
$\left.\frac{\mathrm{d}}{\mathrm{d}t}f(x+t\Delta x_\mathrm{nt})\right\vert_{t=0}=\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}=-\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\leq 0\tag{15}$
牛顿法具有仿射不变性，设 $T$ 为非奇异矩阵，坐标变换 $x = T y$ ， $\bar{f}(y)=f(Ty)$ ，优化问题等效为
$\begin{aligned} &\text{minimize}\quad \bar{f}(y)\\ &\text{subject to}\quad ATy=b \end{aligned}\tag{16}$

类似于式(12)和(14)，相应的增量 $\Delta y_\mathrm{nt}$ 满足
$\begin{bmatrix} T^\mathrm{T}\nabla^2f(Ty)T & T^\mathrm{T}A^\mathrm{T}\\ AT & 0 \end{bmatrix} \begin{bmatrix} \Delta y_\mathrm{nt}\\ \bar{w} \end{bmatrix}=\begin{bmatrix} -T^\mathrm{T}\nabla f(Ty)\\ 0 \end{bmatrix}\tag{17}$

可得 $\Delta x_\mathrm{nt}=T\Delta y_\mathrm{nt}$ ， $w=\bar{w}$ ，即方向相应地也进行了调整。

二、将牛顿法用于带等式约束的凸优化问题(1)，主要步骤如下：

$\lambda(x)=(\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt})^{1/2}$

给定起始点 $x\in\mathbf{dom}f$ ， $A x = b$ ，阈值 $\epsilon>0$ 。

1.计算迭代方向 $\Delta x_\mathrm{nt}$ ，以及减少量(Newton decrement) $\lambda(x)=(\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt})^{1/2}$ ；

2.若 $\lambda^2(x)/2\leq\epsilon$ ，退出计算；

3.线搜索：利用backtracking等方法计算步长 $t$ ；

4.更新： $x:=x+t\Delta x_\mathrm{nt}$ ，返回第1步。

值得注意的是，将牛顿法用于带等式约束的凸优化问题(1)，本质上与牛顿法用于消除等式约束后的问题相同。设矩阵 $F$ 满足 $\mathcal{R}(F)=\mathcal{N}(A)$ ， $\mathbf{rank}F=n-p$ ， $\hat{x}$ 满足约束 $A\hat{x}=b$ ，则原优化目标函数可转化为 $\tilde{f}(z)=f(x)=f(Fz+\hat{x})$ ，且有
$\nabla\tilde{f}(z)=F^\mathrm{T}\nabla f(Fz+\hat{x}),\quad \nabla^2\tilde{f}(z)=F^\mathrm{T}\nabla^2 f(Fz+\hat{x})F\tag{18}$

可见式(12)和式(14)左侧的矩阵可逆，当且仅当 $\nabla^2\tilde{f}(z)$ 可逆。消除等式约束后，迭代方向满足
$\Delta z_\mathrm{nt}=-\nabla^2\tilde{f}(z)^{-1}\nabla\tilde{f}(z)=-(F^\mathrm{T}\nabla^2 f(x)F)^{-1}F^\mathrm{T}\nabla f(x)\tag{19}$

我们看一下式(19)与式(12)和式(14)的关系，取 $\Delta x_\mathrm{nt}=F\Delta z_\mathrm{nt}$ ， $w=-(AA^\mathrm{T})^{-1}A(\nabla f(x)+\nabla^2f(x)\Delta x_\mathrm{nt})$ ，可以证明 $\Delta x_\mathrm{nt}$ 和 $w$ 满足式(12)和式(14)，即
$\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x)=0,\quad A\Delta x_\mathrm{nt}=0\tag{20}$

考虑到 $A F = 0$ ，因此 $A\Delta x_\mathrm{nt}=0$ ，式(20)中第2个方程满足，再看第1个方程，为了证明式(20)中第1个方程满足，类似于获得式(8)的方法，再一次用到矩阵 $[F\;A^\mathrm{T}]^\mathrm{T}$ 的非奇异性，具体有
$\begin{aligned} &F^\mathrm{T}(\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x))\\ =&F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}+F^\mathrm{T}A^\mathrm{T}w+F^\mathrm{T}\nabla f(x)\\ \overset{AF=0}=&F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}+F^\mathrm{T}\nabla f(x)\\ \overset{(19)}=&0 \end{aligned}\tag{21}$

$\begin{aligned} &A(\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x))\\ =&A\nabla^2f(x)F\Delta z_\mathrm{nt}+AA^\mathrm{T}w+A\nabla f(x)\\ =&0 \end{aligned}\tag{22}$

结合式(21)和(22)可知式(20)中第1个方程满足。此外， $\tilde{f}(z)$ 的Newton decrement $\tilde{\lambda}(z)$ 与 $\lambda(x)$ 相同，具体有
$\begin{aligned} \tilde{\lambda}^2(z)&=\Delta z_\mathrm{nt}^\mathrm{T}\nabla^2\tilde{f}(z)\Delta z_\mathrm{nt}\\ &\overset{(18)}=\Delta z_\mathrm{nt}^\mathrm{T}F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}\\ &=\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\\ &=\lambda^2(x) \end{aligned}\tag{23}$

三、牛顿法收敛性分析

根据前面的分析，将牛顿法用于带等式约束的凸优化问题(1)的收敛性分析，应该与牛顿法用于消除等式约束后的收敛性分析相同，当然，由于有等式约束，相应的假设有一些区别：

假设1： $S=\{x\vert x\in\mathbf{dom}f,f(x)\leq f(x^{(0)}),Ax=b\}$ 为闭集，其中 $x^{(0)}\in\mathbf{dom}f$ 满足 $Ax^{(0)}=b$ ；

假设2： 在集合 $S$ 上 $\nabla^2f(x)\preceq MI$ ，且
$\left\Vert \begin{bmatrix} \nabla^2f(x) & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\leq K\tag{24}$
假设3： 对 $x,\tilde{x}\in S$ ， $\nabla^2f$ 满足Lipschitz条件，即 $\Vert \nabla^2f(x)-\nabla^2f(\tilde{x})\Vert_2\leq L\Vert x-\tilde{x}\Vert_2$ 。

容易验证假设1、2和3能够保证消除等式约束后的目标函数满足无约束牛顿法中的假设（见上一篇博客），其中假设1和2对应于无约束牛顿法中的假设1，根据式(24)，若无等式约束，相当于 $\Vert\nabla^2 f(x)^{-1}\Vert_2\leq K$ ，取 $K = 1 / m$ 可得 $\nabla^2f(x)\succeq mI$ ，假设3则对应于无约束牛顿法中的假设2，因此收敛性分析也与无约束牛顿法类似，这里不再赘述。

我们可以进一步看看假设2，重点是需要表明存在常数 $m$ 使得 $\nabla^2\tilde{f}(z)\succeq mI$ ，比如通过人为构造取 $m=\frac{\sigma_\mathrm{min}(F)^2}{K^2M}$ 即满足要求，其中 $\sigma_\mathrm{min}(F)$ 为 $F$ 的最小奇异值（由于 $F$ 满秩，这样构造得到的 $m$ 为正数）。可以通过反证法证明这一点，考虑到 $\nabla^2\tilde{f}(z)=F^\mathrm{T}\nabla^2 f(Fz+\hat{x})F=F^\mathrm{T}\nabla^2 f(x)F$ ，令 $H=\nabla^2 f(x)$ ，若 $F^\mathrm{T}HF\nsucceq mI$ ，则可以找到 $u$ ( $\Vert u\Vert_2$ =1)使得 $u^\mathrm{T}F^\mathrm{T}HFu<m$ ，即 $\Vert H^{1/2}Fu\Vert_2<m^{1/2}$ 。进一步考虑矩阵等式
$\begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}\begin{bmatrix} Fu\\ 0 \end{bmatrix}=\begin{bmatrix} HFu\\ 0 \end{bmatrix}\tag{25}$

由式(25)可知
$\left\Vert \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\geq \frac{\left\Vert\begin{bmatrix} Fu\\ 0 \end{bmatrix}\right\Vert_2}{\left\Vert\begin{bmatrix} HFu\\ 0 \end{bmatrix}\right\Vert_2}=\frac{\Vert Fu\Vert_2}{\Vert HFu\Vert_2}\tag{26}$

进一步结合 $\Vert Fu\Vert_2\geq\sigma_\mathrm{min}(F)$ 以及
$\Vert HFu\Vert_2\leq\Vert H^{1/2}\Vert_2\Vert H^{1/2}Fu\Vert_2<M^{1/2}m^{1/2}\tag{27}$

可得(式(27)让人莫名想起Young不等式)
$\left\Vert \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\geq\frac{\Vert Fu\Vert_2}{\Vert HFu\Vert_2}>\frac{\sigma_\mathrm{min}(F)}{M^{1/2}m^{1/2}}=K\tag{28}$