chapter 10 Equality constrained minimization
主要研究带等式约束的凸优化问题
10.1 Equality constrained minimization problems
描述形式如下
minimize
f
(
x
)
subject to
A
x
=
b
(1)
\begin{aligned} &\text{minimize}\quad f(x)\\ &\text{subject to}\quad Ax=b \end{aligned}\tag{1}
minimizef(x)subject toAx=b(1)
f
:
R
n
→
R
f:\mathbb{R^n}\rightarrow\mathbb{R}
f:Rn→R,
A
∈
R
p
×
n
A\in\mathbb{R}^{p\times n}
A∈Rp×n,
p
<
n
p<n
p<n,
A
A
A的秩为
p
p
p(即有
p
p
p个线性无关的约束条件)。根据第5章的对偶理论(KKT条件),
x
∗
∈
d
o
m
f
x^*\in\mathbf{dom}f
x∗∈domf是最优解当且仅当存在
ν
∗
∈
R
p
\nu^*\in\mathbb{R}^p
ν∗∈Rp使得
A
x
∗
=
b
,
∇
f
(
x
∗
)
+
A
T
ν
∗
=
0
(2)
Ax^*=b,\quad \nabla f(x^*)+A^\mathrm{T}\nu^*=0\tag{2}
Ax∗=b,∇f(x∗)+ATν∗=0(2)
式(2)是关于 n + p n+p n+p个未知数的 n + p n+p n+p个方程。
- 当
f
(
x
)
f(x)
f(x)为二次函数(不得不承认一点,二次函数是容易处理的情形,很多时候我们都会想办法往二次函数上靠),即
f
(
x
)
=
(
1
/
2
)
x
T
P
x
+
q
T
x
+
r
f(x)=(1/2)x^\mathrm{T}Px+q^\mathrm{T}x+r
f(x)=(1/2)xTPx+qTx+r,
P
P
P为正定矩阵时,式(2)为线性方程组
A ˉ [ x ∗ ν ] = [ P A T A 0 ] [ x ∗ ν ] = [ − q b ] (3) \bar{A}\begin{bmatrix} x^*\\ \nu \end{bmatrix}=\begin{bmatrix} P & A^\mathrm{T}\\ A & 0 \end{bmatrix} \begin{bmatrix} x^*\\ \nu \end{bmatrix}=\begin{bmatrix} -q\\ b \end{bmatrix}\tag{3} Aˉ[x∗ν]=[PAAT0][x∗ν]=[−qb](3)
凸优化中但凡涉及到线性方程或者矩阵时,一定要想到矩阵的值空间和零空间这两个概念,对于方程(3)的解,显然可以根据矩阵
A
ˉ
\bar{A}
Aˉ的性质分为三种情况:唯一解、不唯一解、无解,对于无解的情形,说明
[
−
q
,
b
]
T
[-q,b]^\mathrm{T}
[−q,b]T不在矩阵
A
ˉ
\bar{A}
Aˉ的值空间中,也就是说存在某个矩阵
A
ˉ
\bar{A}
Aˉ零空间的向量
[
v
,
w
]
T
[v,w]^\mathrm{T}
[v,w]T,其和
[
−
q
,
b
]
T
[-q,b]^\mathrm{T}
[−q,b]T的内积不为零,即
P
v
+
A
T
w
=
0
,
A
v
=
0
,
−
q
T
v
+
b
T
w
>
0
(4)
Pv+A^\mathrm{T}w=0,\quad Av=0,\quad -q^\mathrm{T}v+b^\mathrm{T}w>0\tag{4}
Pv+ATw=0,Av=0,−qTv+bTw>0(4)
由于方程
A
x
=
b
Ax=b
Ax=b在
f
(
x
)
f(x)
f(x)的定义域内肯定有解(否则原优化问题没有意义了),即存在可行点,设
x
^
\hat{x}
x^为任意可行点,则根据
A
v
=
0
Av=0
Av=0可知对任意
t
t
t,
x
=
x
^
+
t
v
x=\hat{x}+tv
x=x^+tv也为可行点,那么
f
(
x
^
+
t
v
)
=
(
1
/
2
)
(
x
^
+
t
v
)
T
P
(
x
^
+
t
v
)
+
q
T
(
x
^
+
t
v
)
+
r
=
f
(
x
^
)
+
t
(
v
T
P
x
^
+
q
T
v
)
+
(
1
/
2
)
t
2
v
T
P
v
=
f
(
x
^
)
+
t
(
−
x
^
T
A
T
w
+
q
T
v
)
−
(
1
/
2
)
t
2
w
T
A
v
=
f
(
x
^
)
+
t
(
−
b
T
w
+
q
T
v
)
(5)
\begin{aligned} f(\hat{x}+tv)&=(1/2)(\hat{x}+tv)^\mathrm{T}P(\hat{x}+tv)+q^\mathrm{T}(\hat{x}+tv)+r\\ &=f(\hat{x})+t(v^\mathrm{T}P\hat{x}+q^\mathrm{T}v)+(1/2)t^2v^\mathrm{T}Pv\\ &=f(\hat{x})+t(-\hat{x}^\mathrm{T}A^\mathrm{T}w+q^\mathrm{T}v)-(1/2)t^2w^\mathrm{T}Av\\ &=f(\hat{x})+t(-b^\mathrm{T}w+q^\mathrm{T}v) \end{aligned}\tag{5}
f(x^+tv)=(1/2)(x^+tv)TP(x^+tv)+qT(x^+tv)+r=f(x^)+t(vTPx^+qTv)+(1/2)t2vTPv=f(x^)+t(−x^TATw+qTv)−(1/2)t2wTAv=f(x^)+t(−bTw+qTv)(5)
显然,当 t → ∞ t\rightarrow\infty t→∞时, f ( x ^ + t v ) f(\hat{x}+tv) f(x^+tv)的取值趋于 − ∞ -\infty −∞。
- 求解问题(1)的一个思路是消除等式约束
A
x
=
b
Ax=b
Ax=b,将问题转化为无约束问题。首先寻找
A
x
=
b
Ax=b
Ax=b的一个特解
x
^
\hat{x}
x^,以及矩阵
F
F
F,其值空间为
A
A
A的零空间,即
R
(
F
)
=
N
(
A
)
\mathcal{R}(F)=\mathcal{N}(A)
R(F)=N(A),则满足等式约束
A
x
=
b
Ax=b
Ax=b的解可表示为
{ x ∣ A x = b } = { F z + x ^ ∣ z ∈ R n − p } (6) \{x\vert Ax=b\}=\{Fz+\hat{x}\vert z\in\mathbb{R}^{n-p}\}\tag{6} {x∣Ax=b}={Fz+x^∣z∈Rn−p}(6)
则原优化目标函数可转化为 f ~ ( z ) = f ( F z + x ^ ) \tilde{f}(z)=f(Fz+\hat{x}) f~(z)=f(Fz+x^),即关于 z z z的无约束优化问题,设其最优解为 z ∗ z^* z∗,满足 F z ∗ + x ^ = x ∗ Fz^*+\hat{x}=x^* Fz∗+x^=x∗,从而有 ∇ f ~ ( z ∗ ) = F T ∇ f ( x ∗ ) = 0 \nabla\tilde{f}(z^*)=F^\mathrm{T}\nabla f(x^*)=0 ∇f~(z∗)=FT∇f(x∗)=0。
-
也可以考虑求解对偶方程,即式(2),由于 r a n k A = p \mathbf{rank}A=p rankA=p,矩阵 A A T AA^\mathrm{T} AAT为非奇异的,根据式(2)中的 ∇ f ( x ∗ ) + A T ν ∗ = 0 \nabla f(x^*)+A^\mathrm{T}\nu^*=0 ∇f(x∗)+ATν∗=0可得 A ∇ f ( x ∗ ) + A A T ν ∗ = 0 A\nabla f(x^*)+AA^\mathrm{T}\nu^*=0 A∇f(x∗)+AATν∗=0,从而 ν ∗ = − ( A A T ) − 1 A ∇ f ( x ∗ ) \nu^*=-(AA^\mathrm{T})^{-1}A\nabla f(x^*) ν∗=−(AAT)−1A∇f(x∗),这个解其实严格符合原方程 ∇ f ( x ∗ ) + A T ν ∗ = 0 \nabla f(x^*)+A^\mathrm{T}\nu^*=0 ∇f(x∗)+ATν∗=0,注意到 A F = 0 AF=0 AF=0,有
F T ∇ f ( x ∗ ) = 0 , F T A T = 0 ⇒ F T ( ∇ f ( x ∗ ) + A T ν ∗ ) = 0 (7) F^\mathrm{T}\nabla f(x^*)=0,F^\mathrm{T}A^\mathrm{T}=0\Rightarrow F^\mathrm{T}(\nabla f(x^*)+A^\mathrm{T}\nu^*)=0\tag{7} FT∇f(x∗)=0,FTAT=0⇒FT(∇f(x∗)+ATν∗)=0(7)结合 A ∇ f ( x ∗ ) + A A T ν ∗ = 0 A\nabla f(x^*)+AA^\mathrm{T}\nu^*=0 A∇f(x∗)+AATν∗=0可得
[ F T A ] ( ∇ f ( x ∗ ) + A T ν ∗ ) = 0 (8) \begin{bmatrix} F^\mathrm{T}\\ A \end{bmatrix}(\nabla f(x^*)+A^\mathrm{T}\nu^*)=0\tag{8} [FTA](∇f(x∗)+ATν∗)=0(8)
由于矩阵 [ F A T ] T [F\;A^\mathrm{T}]^\mathrm{T} [FAT]T非奇异,因此方程 ∇ f ( x ∗ ) + A T ν ∗ = 0 \nabla f(x^*)+A^\mathrm{T}\nu^*=0 ∇f(x∗)+ATν∗=0严格满足。
- 求解问题(1)的另一个思路是求解对偶,其对偶函数为
g ( ν ) = − b T ν + inf x ( f ( x ) + ν T A x ) = − b T ν − sup x ( ( − A T ν ) T x − f ( x ) ) = − b T ν − f ∗ ( − A T ν ) (9) \begin{aligned} g(\nu)&=-b^\mathrm{T}\nu+\inf_x(f(x)+\nu^\mathrm{T}Ax)\\ &=-b^\mathrm{T}\nu-\sup_x((-A^\mathrm{T}\nu)^\mathrm{T}x-f(x))\\ &=-b^\mathrm{T}\nu-f^*(-A^\mathrm{T}\nu) \end{aligned}\tag{9} g(ν)=−bTν+xinf(f(x)+νTAx)=−bTν−xsup((−ATν)Tx−f(x))=−bTν−f∗(−ATν)(9)
其中
f
∗
f^*
f∗为
f
f
f的共轭,注意其定义为
f
∗
(
y
)
=
sup
x
∈
d
o
m
f
(
y
T
x
−
f
(
x
)
)
f^*(y)=\displaystyle\sup_{x\in\mathbf{dom}f}(y^\mathrm{T}x-f(x))
f∗(y)=x∈domfsup(yTx−f(x)),则相应的对偶问题为
maximize
−
b
T
ν
−
f
∗
(
−
A
T
ν
)
(10)
\text{maximize}\quad -b^\mathrm{T}\nu-f^*(-A^\mathrm{T}\nu)\tag{10}
maximize−bTν−f∗(−ATν)(10)
若原问题严格可解,即对偶间隙为0,则对偶函数的最优值与原问题目标函数的最优值相等。
10.2 Newton’s method with equality constraints
一、用牛顿法求解带等式约束的凸优化问题(1),有两种典型思路:
-
第1种思路是首先找一个可行点 x x x(满足 A x = b Ax=b Ax=b)将目标函数在 x x x处进行二次近似,即优化问题转化为
minimize f ^ ( x + v ) = f ( x ) + ∇ f ( x ) T v + ( 1 / 2 ) v T ∇ 2 f ( x ) v subject to A ( x + v ) = b (11) \begin{aligned} &\text{minimize}\quad \hat{f}(x+v)=f(x)+\nabla f(x)^\mathrm{T}v+(1/2)v^\mathrm{T}\nabla^2f(x)v\\ &\text{subject to}\quad A(x+v)=b \end{aligned}\tag{11} minimizef^(x+v)=f(x)+∇f(x)Tv+(1/2)vT∇2f(x)vsubject toA(x+v)=b(11)问题(11)是关于 v v v的二次优化问题,将其最优解作为下一步迭代的方向 Δ x n t \Delta x_\mathrm{nt} Δxnt,获取最优解可以沿用10.1中的做法,即 Δ x n t \Delta x_\mathrm{nt} Δxnt满足
[ ∇ 2 f ( x ) A T A 0 ] [ Δ x n t w ] = [ − ∇ f ( x ) 0 ] (12) \begin{bmatrix} \nabla^2f(x) & A^\mathrm{T}\\ A & 0 \end{bmatrix} \begin{bmatrix} \Delta x_\mathrm{nt}\\ w \end{bmatrix}=\begin{bmatrix} -\nabla f(x)\\ 0 \end{bmatrix}\tag{12} [∇2f(x)AAT0][Δxntw]=[−∇f(x)0](12)其中 w w w为对偶变量。
-
第2种思路是近似求解方程(2),用 x + Δ x n t x+\Delta x_\mathrm{nt} x+Δxnt替代 x ∗ x^* x∗, w w w替代 ν ∗ \nu^* ν∗,梯度项用一阶泰勒近似,即有
A ( x + Δ x n t ) = b , ∇ f ( x + Δ x n t ) + A T w ≈ ∇ f ( x ) + ∇ 2 f ( x ) Δ x n t + A T w = 0 (13) \begin{aligned} &\quad A(x+\Delta x_\mathrm{nt})=b,\\ &\quad\nabla f(x+\Delta x_\mathrm{nt})+A^\mathrm{T}w\\ &\approx\nabla f(x)+\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w\\ &=0 \end{aligned}\tag{13} A(x+Δxnt)=b,∇f(x+Δxnt)+ATw≈∇f(x)+∇2f(x)Δxnt+ATw=0(13)进一步可得
A Δ x n t = 0 , ∇ 2 f ( x ) Δ x n t + A T w = − ∇ f ( x ) (14) A\Delta x_\mathrm{nt}=0,\quad\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w=-\nabla f(x)\tag{14} AΔxnt=0,∇2f(x)Δxnt+ATw=−∇f(x)(14)比较式(12)和(14)可知,对目标函数和KKT条件进行适当近似,获得的结果是一样的。
-
前面两种思路获得的 Δ x n t \Delta x_\mathrm{nt} Δxnt必定是可行方向,因为根据式(12)和(14)可知
d d t f ( x + t Δ x n t ) ∣ t = 0 = ∇ f ( x ) T Δ x n t = − Δ x n t T ∇ 2 f ( x ) Δ x n t ≤ 0 (15) \left.\frac{\mathrm{d}}{\mathrm{d}t}f(x+t\Delta x_\mathrm{nt})\right\vert_{t=0}=\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}=-\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\leq 0\tag{15} dtdf(x+tΔxnt)∣∣∣∣t=0=∇f(x)TΔxnt=−ΔxntT∇2f(x)Δxnt≤0(15) -
牛顿法具有仿射不变性,设 T T T为非奇异矩阵,坐标变换 x = T y x=Ty x=Ty, f ˉ ( y ) = f ( T y ) \bar{f}(y)=f(Ty) fˉ(y)=f(Ty),优化问题等效为
minimize f ˉ ( y ) subject to A T y = b (16) \begin{aligned} &\text{minimize}\quad \bar{f}(y)\\ &\text{subject to}\quad ATy=b \end{aligned}\tag{16} minimizefˉ(y)subject toATy=b(16)类似于式(12)和(14),相应的增量 Δ y n t \Delta y_\mathrm{nt} Δynt满足
[ T T ∇ 2 f ( T y ) T T T A T A T 0 ] [ Δ y n t w ˉ ] = [ − T T ∇ f ( T y ) 0 ] (17) \begin{bmatrix} T^\mathrm{T}\nabla^2f(Ty)T & T^\mathrm{T}A^\mathrm{T}\\ AT & 0 \end{bmatrix} \begin{bmatrix} \Delta y_\mathrm{nt}\\ \bar{w} \end{bmatrix}=\begin{bmatrix} -T^\mathrm{T}\nabla f(Ty)\\ 0 \end{bmatrix}\tag{17} [TT∇2f(Ty)TATTTAT0][Δyntwˉ]=[−TT∇f(Ty)0](17)可得 Δ x n t = T Δ y n t \Delta x_\mathrm{nt}=T\Delta y_\mathrm{nt} Δxnt=TΔynt, w = w ˉ w=\bar{w} w=wˉ,即方向相应地也进行了调整。
二、将牛顿法用于带等式约束的凸优化问题(1),主要步骤如下:
λ ( x ) = ( Δ x n t T ∇ 2 f ( x ) Δ x n t ) 1 / 2 \lambda(x)=(\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt})^{1/2} λ(x)=(ΔxntT∇2f(x)Δxnt)1/2
给定起始点 x ∈ d o m f x\in\mathbf{dom}f x∈domf, A x = b Ax=b Ax=b,阈值 ϵ > 0 \epsilon>0 ϵ>0。
1.计算迭代方向 Δ x n t \Delta x_\mathrm{nt} Δxnt,以及减少量(Newton decrement) λ ( x ) = ( Δ x n t T ∇ 2 f ( x ) Δ x n t ) 1 / 2 \lambda(x)=(\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt})^{1/2} λ(x)=(ΔxntT∇2f(x)Δxnt)1/2;
2.若 λ 2 ( x ) / 2 ≤ ϵ \lambda^2(x)/2\leq\epsilon λ2(x)/2≤ϵ,退出计算;
3.线搜索:利用backtracking等方法计算步长 t t t;
4.更新: x : = x + t Δ x n t x:=x+t\Delta x_\mathrm{nt} x:=x+tΔxnt,返回第1步。
值得注意的是,将牛顿法用于带等式约束的凸优化问题(1),本质上与牛顿法用于消除等式约束后的问题相同。设矩阵
F
F
F满足
R
(
F
)
=
N
(
A
)
\mathcal{R}(F)=\mathcal{N}(A)
R(F)=N(A),
r
a
n
k
F
=
n
−
p
\mathbf{rank}F=n-p
rankF=n−p,
x
^
\hat{x}
x^满足约束
A
x
^
=
b
A\hat{x}=b
Ax^=b,则原优化目标函数可转化为
f
~
(
z
)
=
f
(
x
)
=
f
(
F
z
+
x
^
)
\tilde{f}(z)=f(x)=f(Fz+\hat{x})
f~(z)=f(x)=f(Fz+x^),且有
∇
f
~
(
z
)
=
F
T
∇
f
(
F
z
+
x
^
)
,
∇
2
f
~
(
z
)
=
F
T
∇
2
f
(
F
z
+
x
^
)
F
(18)
\nabla\tilde{f}(z)=F^\mathrm{T}\nabla f(Fz+\hat{x}),\quad \nabla^2\tilde{f}(z)=F^\mathrm{T}\nabla^2 f(Fz+\hat{x})F\tag{18}
∇f~(z)=FT∇f(Fz+x^),∇2f~(z)=FT∇2f(Fz+x^)F(18)
可见式(12)和式(14)左侧的矩阵可逆,当且仅当
∇
2
f
~
(
z
)
\nabla^2\tilde{f}(z)
∇2f~(z)可逆。消除等式约束后,迭代方向满足
Δ
z
n
t
=
−
∇
2
f
~
(
z
)
−
1
∇
f
~
(
z
)
=
−
(
F
T
∇
2
f
(
x
)
F
)
−
1
F
T
∇
f
(
x
)
(19)
\Delta z_\mathrm{nt}=-\nabla^2\tilde{f}(z)^{-1}\nabla\tilde{f}(z)=-(F^\mathrm{T}\nabla^2 f(x)F)^{-1}F^\mathrm{T}\nabla f(x)\tag{19}
Δznt=−∇2f~(z)−1∇f~(z)=−(FT∇2f(x)F)−1FT∇f(x)(19)
我们看一下式(19)与式(12)和式(14)的关系,取
Δ
x
n
t
=
F
Δ
z
n
t
\Delta x_\mathrm{nt}=F\Delta z_\mathrm{nt}
Δxnt=FΔznt,
w
=
−
(
A
A
T
)
−
1
A
(
∇
f
(
x
)
+
∇
2
f
(
x
)
Δ
x
n
t
)
w=-(AA^\mathrm{T})^{-1}A(\nabla f(x)+\nabla^2f(x)\Delta x_\mathrm{nt})
w=−(AAT)−1A(∇f(x)+∇2f(x)Δxnt),可以证明
Δ
x
n
t
\Delta x_\mathrm{nt}
Δxnt和
w
w
w满足式(12)和式(14),即
∇
2
f
(
x
)
Δ
x
n
t
+
A
T
w
+
∇
f
(
x
)
=
0
,
A
Δ
x
n
t
=
0
(20)
\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x)=0,\quad A\Delta x_\mathrm{nt}=0\tag{20}
∇2f(x)Δxnt+ATw+∇f(x)=0,AΔxnt=0(20)
考虑到
A
F
=
0
AF=0
AF=0,因此
A
Δ
x
n
t
=
0
A\Delta x_\mathrm{nt}=0
AΔxnt=0,式(20)中第2个方程满足,再看第1个方程,为了证明式(20)中第1个方程满足,类似于获得式(8)的方法,再一次用到矩阵
[
F
A
T
]
T
[F\;A^\mathrm{T}]^\mathrm{T}
[FAT]T的非奇异性,具体有
F
T
(
∇
2
f
(
x
)
Δ
x
n
t
+
A
T
w
+
∇
f
(
x
)
)
=
F
T
∇
2
f
(
x
)
F
Δ
z
n
t
+
F
T
A
T
w
+
F
T
∇
f
(
x
)
=
A
F
=
0
F
T
∇
2
f
(
x
)
F
Δ
z
n
t
+
F
T
∇
f
(
x
)
=
(
19
)
0
(21)
\begin{aligned} &F^\mathrm{T}(\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x))\\ =&F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}+F^\mathrm{T}A^\mathrm{T}w+F^\mathrm{T}\nabla f(x)\\ \overset{AF=0}=&F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}+F^\mathrm{T}\nabla f(x)\\ \overset{(19)}=&0 \end{aligned}\tag{21}
==AF=0=(19)FT(∇2f(x)Δxnt+ATw+∇f(x))FT∇2f(x)FΔznt+FTATw+FT∇f(x)FT∇2f(x)FΔznt+FT∇f(x)0(21)
A ( ∇ 2 f ( x ) Δ x n t + A T w + ∇ f ( x ) ) = A ∇ 2 f ( x ) F Δ z n t + A A T w + A ∇ f ( x ) = 0 (22) \begin{aligned} &A(\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x))\\ =&A\nabla^2f(x)F\Delta z_\mathrm{nt}+AA^\mathrm{T}w+A\nabla f(x)\\ =&0 \end{aligned}\tag{22} ==A(∇2f(x)Δxnt+ATw+∇f(x))A∇2f(x)FΔznt+AATw+A∇f(x)0(22)
结合式(21)和(22)可知式(20)中第1个方程满足。此外,
f
~
(
z
)
\tilde{f}(z)
f~(z)的Newton decrement
λ
~
(
z
)
\tilde{\lambda}(z)
λ~(z)与
λ
(
x
)
\lambda(x)
λ(x)相同,具体有
λ
~
2
(
z
)
=
Δ
z
n
t
T
∇
2
f
~
(
z
)
Δ
z
n
t
=
(
18
)
Δ
z
n
t
T
F
T
∇
2
f
(
x
)
F
Δ
z
n
t
=
Δ
x
n
t
T
∇
2
f
(
x
)
Δ
x
n
t
=
λ
2
(
x
)
(23)
\begin{aligned} \tilde{\lambda}^2(z)&=\Delta z_\mathrm{nt}^\mathrm{T}\nabla^2\tilde{f}(z)\Delta z_\mathrm{nt}\\ &\overset{(18)}=\Delta z_\mathrm{nt}^\mathrm{T}F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}\\ &=\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\\ &=\lambda^2(x) \end{aligned}\tag{23}
λ~2(z)=ΔzntT∇2f~(z)Δznt=(18)ΔzntTFT∇2f(x)FΔznt=ΔxntT∇2f(x)Δxnt=λ2(x)(23)
三、牛顿法收敛性分析
根据前面的分析,将牛顿法用于带等式约束的凸优化问题(1)的收敛性分析,应该与牛顿法用于消除等式约束后的收敛性分析相同,当然,由于有等式约束,相应的假设有一些区别:
假设1: S = { x ∣ x ∈ d o m f , f ( x ) ≤ f ( x ( 0 ) ) , A x = b } S=\{x\vert x\in\mathbf{dom}f,f(x)\leq f(x^{(0)}),Ax=b\} S={x∣x∈domf,f(x)≤f(x(0)),Ax=b}为闭集,其中 x ( 0 ) ∈ d o m f x^{(0)}\in\mathbf{dom}f x(0)∈domf满足 A x ( 0 ) = b Ax^{(0)}=b Ax(0)=b;
假设2: 在集合
S
S
S上
∇
2
f
(
x
)
⪯
M
I
\nabla^2f(x)\preceq MI
∇2f(x)⪯MI,且
∥
[
∇
2
f
(
x
)
A
T
A
0
]
−
1
∥
2
≤
K
(24)
\left\Vert \begin{bmatrix} \nabla^2f(x) & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\leq K\tag{24}
∥∥∥∥∥[∇2f(x)AAT0]−1∥∥∥∥∥2≤K(24)
假设3: 对
x
,
x
~
∈
S
x,\tilde{x}\in S
x,x~∈S,
∇
2
f
\nabla^2f
∇2f满足Lipschitz条件,即
∥
∇
2
f
(
x
)
−
∇
2
f
(
x
~
)
∥
2
≤
L
∥
x
−
x
~
∥
2
\Vert \nabla^2f(x)-\nabla^2f(\tilde{x})\Vert_2\leq L\Vert x-\tilde{x}\Vert_2
∥∇2f(x)−∇2f(x~)∥2≤L∥x−x~∥2。
容易验证假设1、2和3能够保证消除等式约束后的目标函数满足无约束牛顿法中的假设(见上一篇博客),其中假设1和2对应于无约束牛顿法中的假设1,根据式(24),若无等式约束,相当于 ∥ ∇ 2 f ( x ) − 1 ∥ 2 ≤ K \Vert\nabla^2 f(x)^{-1}\Vert_2\leq K ∥∇2f(x)−1∥2≤K,取 K = 1 / m K=1/m K=1/m可得 ∇ 2 f ( x ) ⪰ m I \nabla^2f(x)\succeq mI ∇2f(x)⪰mI,假设3则对应于无约束牛顿法中的假设2,因此收敛性分析也与无约束牛顿法类似,这里不再赘述。
我们可以进一步看看假设2,重点是需要表明存在常数
m
m
m使得
∇
2
f
~
(
z
)
⪰
m
I
\nabla^2\tilde{f}(z)\succeq mI
∇2f~(z)⪰mI,比如通过人为构造取
m
=
σ
m
i
n
(
F
)
2
K
2
M
m=\frac{\sigma_\mathrm{min}(F)^2}{K^2M}
m=K2Mσmin(F)2即满足要求,其中
σ
m
i
n
(
F
)
\sigma_\mathrm{min}(F)
σmin(F)为
F
F
F的最小奇异值(由于
F
F
F满秩,这样构造得到的
m
m
m为正数)。可以通过反证法证明这一点,考虑到
∇
2
f
~
(
z
)
=
F
T
∇
2
f
(
F
z
+
x
^
)
F
=
F
T
∇
2
f
(
x
)
F
\nabla^2\tilde{f}(z)=F^\mathrm{T}\nabla^2 f(Fz+\hat{x})F=F^\mathrm{T}\nabla^2 f(x)F
∇2f~(z)=FT∇2f(Fz+x^)F=FT∇2f(x)F,令
H
=
∇
2
f
(
x
)
H=\nabla^2 f(x)
H=∇2f(x),若
F
T
H
F
⋡
m
I
F^\mathrm{T}HF\nsucceq mI
FTHF⋡mI,则可以找到
u
u
u(
∥
u
∥
2
\Vert u\Vert_2
∥u∥2=1)使得
u
T
F
T
H
F
u
<
m
u^\mathrm{T}F^\mathrm{T}HFu<m
uTFTHFu<m,即
∥
H
1
/
2
F
u
∥
2
<
m
1
/
2
\Vert H^{1/2}Fu\Vert_2<m^{1/2}
∥H1/2Fu∥2<m1/2。进一步考虑矩阵等式
[
H
A
T
A
0
]
[
F
u
0
]
=
[
H
F
u
0
]
(25)
\begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}\begin{bmatrix} Fu\\ 0 \end{bmatrix}=\begin{bmatrix} HFu\\ 0 \end{bmatrix}\tag{25}
[HAAT0][Fu0]=[HFu0](25)
由式(25)可知
∥
[
H
A
T
A
0
]
−
1
∥
2
≥
∥
[
F
u
0
]
∥
2
∥
[
H
F
u
0
]
∥
2
=
∥
F
u
∥
2
∥
H
F
u
∥
2
(26)
\left\Vert \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\geq \frac{\left\Vert\begin{bmatrix} Fu\\ 0 \end{bmatrix}\right\Vert_2}{\left\Vert\begin{bmatrix} HFu\\ 0 \end{bmatrix}\right\Vert_2}=\frac{\Vert Fu\Vert_2}{\Vert HFu\Vert_2}\tag{26}
∥∥∥∥∥[HAAT0]−1∥∥∥∥∥2≥∥∥∥∥[HFu0]∥∥∥∥2∥∥∥∥[Fu0]∥∥∥∥2=∥HFu∥2∥Fu∥2(26)
进一步结合
∥
F
u
∥
2
≥
σ
m
i
n
(
F
)
\Vert Fu\Vert_2\geq\sigma_\mathrm{min}(F)
∥Fu∥2≥σmin(F)以及
∥
H
F
u
∥
2
≤
∥
H
1
/
2
∥
2
∥
H
1
/
2
F
u
∥
2
<
M
1
/
2
m
1
/
2
(27)
\Vert HFu\Vert_2\leq\Vert H^{1/2}\Vert_2\Vert H^{1/2}Fu\Vert_2<M^{1/2}m^{1/2}\tag{27}
∥HFu∥2≤∥H1/2∥2∥H1/2Fu∥2<M1/2m1/2(27)
可得(式(27)让人莫名想起Young不等式)
∥
[
H
A
T
A
0
]
−
1
∥
2
≥
∥
F
u
∥
2
∥
H
F
u
∥
2
>
σ
m
i
n
(
F
)
M
1
/
2
m
1
/
2
=
K
(28)
\left\Vert \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\geq\frac{\Vert Fu\Vert_2}{\Vert HFu\Vert_2}>\frac{\sigma_\mathrm{min}(F)}{M^{1/2}m^{1/2}}=K\tag{28}
∥∥∥∥∥[HAAT0]−1∥∥∥∥∥2≥∥HFu∥2∥Fu∥2>M1/2m1/2σmin(F)=K(28)
式(24)和(28)矛盾,从而证明存在常数 m m m使得 ∇ 2 f ~ ( z ) ⪰ m I \nabla^2\tilde{f}(z)\succeq mI ∇2f~(z)⪰mI。