凸优化学习笔记_chapter10_带等式约束凸优化问题1

chapter 10 Equality constrained minimization

主要研究带等式约束的凸优化问题

10.1 Equality constrained minimization problems

描述形式如下
minimize f ( x ) subject to A x = b (1) \begin{aligned} &\text{minimize}\quad f(x)\\ &\text{subject to}\quad Ax=b \end{aligned}\tag{1} minimizef(x)subject toAx=b(1)

f : R n → R f:\mathbb{R^n}\rightarrow\mathbb{R} f:RnR A ∈ R p × n A\in\mathbb{R}^{p\times n} ARp×n p < n p<n p<n A A A的秩为 p p p(即有 p p p个线性无关的约束条件)。根据第5章的对偶理论(KKT条件), x ∗ ∈ d o m f x^*\in\mathbf{dom}f xdomf是最优解当且仅当存在 ν ∗ ∈ R p \nu^*\in\mathbb{R}^p νRp使得
A x ∗ = b , ∇ f ( x ∗ ) + A T ν ∗ = 0 (2) Ax^*=b,\quad \nabla f(x^*)+A^\mathrm{T}\nu^*=0\tag{2} Ax=b,f(x)+ATν=0(2)

式(2)是关于 n + p n+p n+p个未知数的 n + p n+p n+p个方程。

  • f ( x ) f(x) f(x)为二次函数(不得不承认一点,二次函数是容易处理的情形,很多时候我们都会想办法往二次函数上靠),即 f ( x ) = ( 1 / 2 ) x T P x + q T x + r f(x)=(1/2)x^\mathrm{T}Px+q^\mathrm{T}x+r f(x)=(1/2)xTPx+qTx+r P P P为正定矩阵时,式(2)为线性方程组
    A ˉ [ x ∗ ν ] = [ P A T A 0 ] [ x ∗ ν ] = [ − q b ] (3) \bar{A}\begin{bmatrix} x^*\\ \nu \end{bmatrix}=\begin{bmatrix} P & A^\mathrm{T}\\ A & 0 \end{bmatrix} \begin{bmatrix} x^*\\ \nu \end{bmatrix}=\begin{bmatrix} -q\\ b \end{bmatrix}\tag{3} Aˉ[xν]=[PAAT0][xν]=[qb](3)

凸优化中但凡涉及到线性方程或者矩阵时,一定要想到矩阵的值空间和零空间这两个概念,对于方程(3)的解,显然可以根据矩阵 A ˉ \bar{A} Aˉ的性质分为三种情况:唯一解、不唯一解、无解,对于无解的情形,说明 [ − q , b ] T [-q,b]^\mathrm{T} [q,b]T不在矩阵 A ˉ \bar{A} Aˉ的值空间中,也就是说存在某个矩阵 A ˉ \bar{A} Aˉ零空间的向量 [ v , w ] T [v,w]^\mathrm{T} [v,w]T,其和 [ − q , b ] T [-q,b]^\mathrm{T} [q,b]T的内积不为零,即
P v + A T w = 0 , A v = 0 , − q T v + b T w > 0 (4) Pv+A^\mathrm{T}w=0,\quad Av=0,\quad -q^\mathrm{T}v+b^\mathrm{T}w>0\tag{4} Pv+ATw=0,Av=0,qTv+bTw>0(4)

由于方程 A x = b Ax=b Ax=b f ( x ) f(x) f(x)的定义域内肯定有解(否则原优化问题没有意义了),即存在可行点,设 x ^ \hat{x} x^为任意可行点,则根据 A v = 0 Av=0 Av=0可知对任意 t t t x = x ^ + t v x=\hat{x}+tv x=x^+tv也为可行点,那么
f ( x ^ + t v ) = ( 1 / 2 ) ( x ^ + t v ) T P ( x ^ + t v ) + q T ( x ^ + t v ) + r = f ( x ^ ) + t ( v T P x ^ + q T v ) + ( 1 / 2 ) t 2 v T P v = f ( x ^ ) + t ( − x ^ T A T w + q T v ) − ( 1 / 2 ) t 2 w T A v = f ( x ^ ) + t ( − b T w + q T v ) (5) \begin{aligned} f(\hat{x}+tv)&=(1/2)(\hat{x}+tv)^\mathrm{T}P(\hat{x}+tv)+q^\mathrm{T}(\hat{x}+tv)+r\\ &=f(\hat{x})+t(v^\mathrm{T}P\hat{x}+q^\mathrm{T}v)+(1/2)t^2v^\mathrm{T}Pv\\ &=f(\hat{x})+t(-\hat{x}^\mathrm{T}A^\mathrm{T}w+q^\mathrm{T}v)-(1/2)t^2w^\mathrm{T}Av\\ &=f(\hat{x})+t(-b^\mathrm{T}w+q^\mathrm{T}v) \end{aligned}\tag{5} f(x^+tv)=(1/2)(x^+tv)TP(x^+tv)+qT(x^+tv)+r=f(x^)+t(vTPx^+qTv)+(1/2)t2vTPv=f(x^)+t(x^TATw+qTv)(1/2)t2wTAv=f(x^)+t(bTw+qTv)(5)

显然,当 t → ∞ t\rightarrow\infty t时, f ( x ^ + t v ) f(\hat{x}+tv) f(x^+tv)的取值趋于 − ∞ -\infty

  • 求解问题(1)的一个思路是消除等式约束 A x = b Ax=b Ax=b,将问题转化为无约束问题。首先寻找 A x = b Ax=b Ax=b的一个特解 x ^ \hat{x} x^,以及矩阵 F F F,其值空间为 A A A的零空间,即 R ( F ) = N ( A ) \mathcal{R}(F)=\mathcal{N}(A) R(F)=N(A),则满足等式约束 A x = b Ax=b Ax=b的解可表示为
    { x ∣ A x = b } = { F z + x ^ ∣ z ∈ R n − p } (6) \{x\vert Ax=b\}=\{Fz+\hat{x}\vert z\in\mathbb{R}^{n-p}\}\tag{6} {xAx=b}={Fz+x^zRnp}(6)

则原优化目标函数可转化为 f ~ ( z ) = f ( F z + x ^ ) \tilde{f}(z)=f(Fz+\hat{x}) f~(z)=f(Fz+x^),即关于 z z z的无约束优化问题,设其最优解为 z ∗ z^* z,满足 F z ∗ + x ^ = x ∗ Fz^*+\hat{x}=x^* Fz+x^=x,从而有 ∇ f ~ ( z ∗ ) = F T ∇ f ( x ∗ ) = 0 \nabla\tilde{f}(z^*)=F^\mathrm{T}\nabla f(x^*)=0 f~(z)=FTf(x)=0

  • 也可以考虑求解对偶方程,即式(2),由于 r a n k A = p \mathbf{rank}A=p rankA=p,矩阵 A A T AA^\mathrm{T} AAT为非奇异的,根据式(2)中的 ∇ f ( x ∗ ) + A T ν ∗ = 0 \nabla f(x^*)+A^\mathrm{T}\nu^*=0 f(x)+ATν=0可得 A ∇ f ( x ∗ ) + A A T ν ∗ = 0 A\nabla f(x^*)+AA^\mathrm{T}\nu^*=0 Af(x)+AATν=0,从而 ν ∗ = − ( A A T ) − 1 A ∇ f ( x ∗ ) \nu^*=-(AA^\mathrm{T})^{-1}A\nabla f(x^*) ν=(AAT)1Af(x),这个解其实严格符合原方程 ∇ f ( x ∗ ) + A T ν ∗ = 0 \nabla f(x^*)+A^\mathrm{T}\nu^*=0 f(x)+ATν=0,注意到 A F = 0 AF=0 AF=0,有
    F T ∇ f ( x ∗ ) = 0 , F T A T = 0 ⇒ F T ( ∇ f ( x ∗ ) + A T ν ∗ ) = 0 (7) F^\mathrm{T}\nabla f(x^*)=0,F^\mathrm{T}A^\mathrm{T}=0\Rightarrow F^\mathrm{T}(\nabla f(x^*)+A^\mathrm{T}\nu^*)=0\tag{7} FTf(x)=0,FTAT=0FT(f(x)+ATν)=0(7)

    结合 A ∇ f ( x ∗ ) + A A T ν ∗ = 0 A\nabla f(x^*)+AA^\mathrm{T}\nu^*=0 Af(x)+AATν=0可得
    [ F T A ] ( ∇ f ( x ∗ ) + A T ν ∗ ) = 0 (8) \begin{bmatrix} F^\mathrm{T}\\ A \end{bmatrix}(\nabla f(x^*)+A^\mathrm{T}\nu^*)=0\tag{8} [FTA](f(x)+ATν)=0(8)

由于矩阵 [ F    A T ] T [F\;A^\mathrm{T}]^\mathrm{T} [FAT]T非奇异,因此方程 ∇ f ( x ∗ ) + A T ν ∗ = 0 \nabla f(x^*)+A^\mathrm{T}\nu^*=0 f(x)+ATν=0严格满足。

  • 求解问题(1)的另一个思路是求解对偶,其对偶函数为
    g ( ν ) = − b T ν + inf ⁡ x ( f ( x ) + ν T A x ) = − b T ν − sup ⁡ x ( ( − A T ν ) T x − f ( x ) ) = − b T ν − f ∗ ( − A T ν ) (9) \begin{aligned} g(\nu)&=-b^\mathrm{T}\nu+\inf_x(f(x)+\nu^\mathrm{T}Ax)\\ &=-b^\mathrm{T}\nu-\sup_x((-A^\mathrm{T}\nu)^\mathrm{T}x-f(x))\\ &=-b^\mathrm{T}\nu-f^*(-A^\mathrm{T}\nu) \end{aligned}\tag{9} g(ν)=bTν+xinf(f(x)+νTAx)=bTνxsup((ATν)Txf(x))=bTνf(ATν)(9)

其中 f ∗ f^* f f f f的共轭,注意其定义为 f ∗ ( y ) = sup ⁡ x ∈ d o m f ( y T x − f ( x ) ) f^*(y)=\displaystyle\sup_{x\in\mathbf{dom}f}(y^\mathrm{T}x-f(x)) f(y)=xdomfsup(yTxf(x)),则相应的对偶问题为
maximize − b T ν − f ∗ ( − A T ν ) (10) \text{maximize}\quad -b^\mathrm{T}\nu-f^*(-A^\mathrm{T}\nu)\tag{10} maximizebTνf(ATν)(10)

若原问题严格可解,即对偶间隙为0,则对偶函数的最优值与原问题目标函数的最优值相等。

10.2 Newton’s method with equality constraints

一、用牛顿法求解带等式约束的凸优化问题(1),有两种典型思路:

  • 第1种思路是首先找一个可行点 x x x(满足 A x = b Ax=b Ax=b)将目标函数在 x x x处进行二次近似,即优化问题转化为
    minimize f ^ ( x + v ) = f ( x ) + ∇ f ( x ) T v + ( 1 / 2 ) v T ∇ 2 f ( x ) v subject to A ( x + v ) = b (11) \begin{aligned} &\text{minimize}\quad \hat{f}(x+v)=f(x)+\nabla f(x)^\mathrm{T}v+(1/2)v^\mathrm{T}\nabla^2f(x)v\\ &\text{subject to}\quad A(x+v)=b \end{aligned}\tag{11} minimizef^(x+v)=f(x)+f(x)Tv+(1/2)vT2f(x)vsubject toA(x+v)=b(11)

    问题(11)是关于 v v v的二次优化问题,将其最优解作为下一步迭代的方向 Δ x n t \Delta x_\mathrm{nt} Δxnt,获取最优解可以沿用10.1中的做法,即 Δ x n t \Delta x_\mathrm{nt} Δxnt满足
    [ ∇ 2 f ( x ) A T A 0 ] [ Δ x n t w ] = [ − ∇ f ( x ) 0 ] (12) \begin{bmatrix} \nabla^2f(x) & A^\mathrm{T}\\ A & 0 \end{bmatrix} \begin{bmatrix} \Delta x_\mathrm{nt}\\ w \end{bmatrix}=\begin{bmatrix} -\nabla f(x)\\ 0 \end{bmatrix}\tag{12} [2f(x)AAT0][Δxntw]=[f(x)0](12)

    其中 w w w为对偶变量。

  • 第2种思路是近似求解方程(2),用 x + Δ x n t x+\Delta x_\mathrm{nt} x+Δxnt替代 x ∗ x^* x w w w替代 ν ∗ \nu^* ν,梯度项用一阶泰勒近似,即有
    A ( x + Δ x n t ) = b , ∇ f ( x + Δ x n t ) + A T w ≈ ∇ f ( x ) + ∇ 2 f ( x ) Δ x n t + A T w = 0 (13) \begin{aligned} &\quad A(x+\Delta x_\mathrm{nt})=b,\\ &\quad\nabla f(x+\Delta x_\mathrm{nt})+A^\mathrm{T}w\\ &\approx\nabla f(x)+\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w\\ &=0 \end{aligned}\tag{13} A(x+Δxnt)=b,f(x+Δxnt)+ATwf(x)+2f(x)Δxnt+ATw=0(13)

    进一步可得
    A Δ x n t = 0 , ∇ 2 f ( x ) Δ x n t + A T w = − ∇ f ( x ) (14) A\Delta x_\mathrm{nt}=0,\quad\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w=-\nabla f(x)\tag{14} AΔxnt=0,2f(x)Δxnt+ATw=f(x)(14)

    比较式(12)和(14)可知,对目标函数和KKT条件进行适当近似,获得的结果是一样的。

  • 前面两种思路获得的 Δ x n t \Delta x_\mathrm{nt} Δxnt必定是可行方向,因为根据式(12)和(14)可知
    d d t f ( x + t Δ x n t ) ∣ t = 0 = ∇ f ( x ) T Δ x n t = − Δ x n t T ∇ 2 f ( x ) Δ x n t ≤ 0 (15) \left.\frac{\mathrm{d}}{\mathrm{d}t}f(x+t\Delta x_\mathrm{nt})\right\vert_{t=0}=\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}=-\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\leq 0\tag{15} dtdf(x+tΔxnt)t=0=f(x)TΔxnt=ΔxntT2f(x)Δxnt0(15)

  • 牛顿法具有仿射不变性,设 T T T为非奇异矩阵,坐标变换 x = T y x=Ty x=Ty f ˉ ( y ) = f ( T y ) \bar{f}(y)=f(Ty) fˉ(y)=f(Ty),优化问题等效为
    minimize f ˉ ( y ) subject to A T y = b (16) \begin{aligned} &\text{minimize}\quad \bar{f}(y)\\ &\text{subject to}\quad ATy=b \end{aligned}\tag{16} minimizefˉ(y)subject toATy=b(16)

    类似于式(12)和(14),相应的增量 Δ y n t \Delta y_\mathrm{nt} Δynt满足
    [ T T ∇ 2 f ( T y ) T T T A T A T 0 ] [ Δ y n t w ˉ ] = [ − T T ∇ f ( T y ) 0 ] (17) \begin{bmatrix} T^\mathrm{T}\nabla^2f(Ty)T & T^\mathrm{T}A^\mathrm{T}\\ AT & 0 \end{bmatrix} \begin{bmatrix} \Delta y_\mathrm{nt}\\ \bar{w} \end{bmatrix}=\begin{bmatrix} -T^\mathrm{T}\nabla f(Ty)\\ 0 \end{bmatrix}\tag{17} [TT2f(Ty)TATTTAT0][Δyntwˉ]=[TTf(Ty)0](17)

    可得 Δ x n t = T Δ y n t \Delta x_\mathrm{nt}=T\Delta y_\mathrm{nt} Δxnt=TΔynt w = w ˉ w=\bar{w} w=wˉ,即方向相应地也进行了调整。

二、将牛顿法用于带等式约束的凸优化问题(1),主要步骤如下:


λ ( x ) = ( Δ x n t T ∇ 2 f ( x ) Δ x n t ) 1 / 2 \lambda(x)=(\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt})^{1/2} λ(x)=(ΔxntT2f(x)Δxnt)1/2

给定起始点 x ∈ d o m f x\in\mathbf{dom}f xdomf A x = b Ax=b Ax=b,阈值 ϵ > 0 \epsilon>0 ϵ>0

1.计算迭代方向 Δ x n t \Delta x_\mathrm{nt} Δxnt,以及减少量(Newton decrement) λ ( x ) = ( Δ x n t T ∇ 2 f ( x ) Δ x n t ) 1 / 2 \lambda(x)=(\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt})^{1/2} λ(x)=(ΔxntT2f(x)Δxnt)1/2

2.若 λ 2 ( x ) / 2 ≤ ϵ \lambda^2(x)/2\leq\epsilon λ2(x)/2ϵ,退出计算;

3.线搜索:利用backtracking等方法计算步长 t t t

4.更新: x : = x + t Δ x n t x:=x+t\Delta x_\mathrm{nt} x:=x+tΔxnt,返回第1步。


值得注意的是,将牛顿法用于带等式约束的凸优化问题(1),本质上与牛顿法用于消除等式约束后的问题相同。设矩阵 F F F满足 R ( F ) = N ( A ) \mathcal{R}(F)=\mathcal{N}(A) R(F)=N(A) r a n k F = n − p \mathbf{rank}F=n-p rankF=np x ^ \hat{x} x^满足约束 A x ^ = b A\hat{x}=b Ax^=b,则原优化目标函数可转化为 f ~ ( z ) = f ( x ) = f ( F z + x ^ ) \tilde{f}(z)=f(x)=f(Fz+\hat{x}) f~(z)=f(x)=f(Fz+x^),且有
∇ f ~ ( z ) = F T ∇ f ( F z + x ^ ) , ∇ 2 f ~ ( z ) = F T ∇ 2 f ( F z + x ^ ) F (18) \nabla\tilde{f}(z)=F^\mathrm{T}\nabla f(Fz+\hat{x}),\quad \nabla^2\tilde{f}(z)=F^\mathrm{T}\nabla^2 f(Fz+\hat{x})F\tag{18} f~(z)=FTf(Fz+x^),2f~(z)=FT2f(Fz+x^)F(18)

可见式(12)和式(14)左侧的矩阵可逆,当且仅当 ∇ 2 f ~ ( z ) \nabla^2\tilde{f}(z) 2f~(z)可逆。消除等式约束后,迭代方向满足
Δ z n t = − ∇ 2 f ~ ( z ) − 1 ∇ f ~ ( z ) = − ( F T ∇ 2 f ( x ) F ) − 1 F T ∇ f ( x ) (19) \Delta z_\mathrm{nt}=-\nabla^2\tilde{f}(z)^{-1}\nabla\tilde{f}(z)=-(F^\mathrm{T}\nabla^2 f(x)F)^{-1}F^\mathrm{T}\nabla f(x)\tag{19} Δznt=2f~(z)1f~(z)=(FT2f(x)F)1FTf(x)(19)

我们看一下式(19)与式(12)和式(14)的关系,取 Δ x n t = F Δ z n t \Delta x_\mathrm{nt}=F\Delta z_\mathrm{nt} Δxnt=FΔznt w = − ( A A T ) − 1 A ( ∇ f ( x ) + ∇ 2 f ( x ) Δ x n t ) w=-(AA^\mathrm{T})^{-1}A(\nabla f(x)+\nabla^2f(x)\Delta x_\mathrm{nt}) w=(AAT)1A(f(x)+2f(x)Δxnt),可以证明 Δ x n t \Delta x_\mathrm{nt} Δxnt w w w满足式(12)和式(14),即
∇ 2 f ( x ) Δ x n t + A T w + ∇ f ( x ) = 0 , A Δ x n t = 0 (20) \nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x)=0,\quad A\Delta x_\mathrm{nt}=0\tag{20} 2f(x)Δxnt+ATw+f(x)=0,AΔxnt=0(20)

考虑到 A F = 0 AF=0 AF=0,因此 A Δ x n t = 0 A\Delta x_\mathrm{nt}=0 AΔxnt=0,式(20)中第2个方程满足,再看第1个方程,为了证明式(20)中第1个方程满足,类似于获得式(8)的方法,再一次用到矩阵 [ F    A T ] T [F\;A^\mathrm{T}]^\mathrm{T} [FAT]T的非奇异性,具体有
F T ( ∇ 2 f ( x ) Δ x n t + A T w + ∇ f ( x ) ) = F T ∇ 2 f ( x ) F Δ z n t + F T A T w + F T ∇ f ( x ) = A F = 0 F T ∇ 2 f ( x ) F Δ z n t + F T ∇ f ( x ) = ( 19 ) 0 (21) \begin{aligned} &F^\mathrm{T}(\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x))\\ =&F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}+F^\mathrm{T}A^\mathrm{T}w+F^\mathrm{T}\nabla f(x)\\ \overset{AF=0}=&F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}+F^\mathrm{T}\nabla f(x)\\ \overset{(19)}=&0 \end{aligned}\tag{21} ==AF=0=(19)FT(2f(x)Δxnt+ATw+f(x))FT2f(x)FΔznt+FTATw+FTf(x)FT2f(x)FΔznt+FTf(x)0(21)

A ( ∇ 2 f ( x ) Δ x n t + A T w + ∇ f ( x ) ) = A ∇ 2 f ( x ) F Δ z n t + A A T w + A ∇ f ( x ) = 0 (22) \begin{aligned} &A(\nabla^2f(x)\Delta x_\mathrm{nt}+A^\mathrm{T}w+\nabla f(x))\\ =&A\nabla^2f(x)F\Delta z_\mathrm{nt}+AA^\mathrm{T}w+A\nabla f(x)\\ =&0 \end{aligned}\tag{22} ==A(2f(x)Δxnt+ATw+f(x))A2f(x)FΔznt+AATw+Af(x)0(22)

结合式(21)和(22)可知式(20)中第1个方程满足。此外, f ~ ( z ) \tilde{f}(z) f~(z)的Newton decrement λ ~ ( z ) \tilde{\lambda}(z) λ~(z) λ ( x ) \lambda(x) λ(x)相同,具体有
λ ~ 2 ( z ) = Δ z n t T ∇ 2 f ~ ( z ) Δ z n t = ( 18 ) Δ z n t T F T ∇ 2 f ( x ) F Δ z n t = Δ x n t T ∇ 2 f ( x ) Δ x n t = λ 2 ( x ) (23) \begin{aligned} \tilde{\lambda}^2(z)&=\Delta z_\mathrm{nt}^\mathrm{T}\nabla^2\tilde{f}(z)\Delta z_\mathrm{nt}\\ &\overset{(18)}=\Delta z_\mathrm{nt}^\mathrm{T}F^\mathrm{T}\nabla^2f(x)F\Delta z_\mathrm{nt}\\ &=\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\\ &=\lambda^2(x) \end{aligned}\tag{23} λ~2(z)=ΔzntT2f~(z)Δznt=(18)ΔzntTFT2f(x)FΔznt=ΔxntT2f(x)Δxnt=λ2(x)(23)

三、牛顿法收敛性分析

根据前面的分析,将牛顿法用于带等式约束的凸优化问题(1)的收敛性分析,应该与牛顿法用于消除等式约束后的收敛性分析相同,当然,由于有等式约束,相应的假设有一些区别:

假设1: S = { x ∣ x ∈ d o m f , f ( x ) ≤ f ( x ( 0 ) ) , A x = b } S=\{x\vert x\in\mathbf{dom}f,f(x)\leq f(x^{(0)}),Ax=b\} S={xxdomf,f(x)f(x(0)),Ax=b}为闭集,其中 x ( 0 ) ∈ d o m f x^{(0)}\in\mathbf{dom}f x(0)domf满足 A x ( 0 ) = b Ax^{(0)}=b Ax(0)=b

假设2: 在集合 S S S ∇ 2 f ( x ) ⪯ M I \nabla^2f(x)\preceq MI 2f(x)MI,且
∥ [ ∇ 2 f ( x ) A T A 0 ] − 1 ∥ 2 ≤ K (24) \left\Vert \begin{bmatrix} \nabla^2f(x) & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\leq K\tag{24} [2f(x)AAT0]12K(24)
假设3: x , x ~ ∈ S x,\tilde{x}\in S x,x~S ∇ 2 f \nabla^2f 2f满足Lipschitz条件,即 ∥ ∇ 2 f ( x ) − ∇ 2 f ( x ~ ) ∥ 2 ≤ L ∥ x − x ~ ∥ 2 \Vert \nabla^2f(x)-\nabla^2f(\tilde{x})\Vert_2\leq L\Vert x-\tilde{x}\Vert_2 2f(x)2f(x~)2Lxx~2

容易验证假设1、2和3能够保证消除等式约束后的目标函数满足无约束牛顿法中的假设(见上一篇博客),其中假设1和2对应于无约束牛顿法中的假设1,根据式(24),若无等式约束,相当于 ∥ ∇ 2 f ( x ) − 1 ∥ 2 ≤ K \Vert\nabla^2 f(x)^{-1}\Vert_2\leq K 2f(x)12K,取 K = 1 / m K=1/m K=1/m可得 ∇ 2 f ( x ) ⪰ m I \nabla^2f(x)\succeq mI 2f(x)mI,假设3则对应于无约束牛顿法中的假设2,因此收敛性分析也与无约束牛顿法类似,这里不再赘述。

我们可以进一步看看假设2,重点是需要表明存在常数 m m m使得 ∇ 2 f ~ ( z ) ⪰ m I \nabla^2\tilde{f}(z)\succeq mI 2f~(z)mI,比如通过人为构造取 m = σ m i n ( F ) 2 K 2 M m=\frac{\sigma_\mathrm{min}(F)^2}{K^2M} m=K2Mσmin(F)2即满足要求,其中 σ m i n ( F ) \sigma_\mathrm{min}(F) σmin(F) F F F的最小奇异值(由于 F F F满秩,这样构造得到的 m m m为正数)。可以通过反证法证明这一点,考虑到 ∇ 2 f ~ ( z ) = F T ∇ 2 f ( F z + x ^ ) F = F T ∇ 2 f ( x ) F \nabla^2\tilde{f}(z)=F^\mathrm{T}\nabla^2 f(Fz+\hat{x})F=F^\mathrm{T}\nabla^2 f(x)F 2f~(z)=FT2f(Fz+x^)F=FT2f(x)F,令 H = ∇ 2 f ( x ) H=\nabla^2 f(x) H=2f(x),若 F T H F ⋡ m I F^\mathrm{T}HF\nsucceq mI FTHFmI,则可以找到 u u u( ∥ u ∥ 2 \Vert u\Vert_2 u2=1)使得 u T F T H F u < m u^\mathrm{T}F^\mathrm{T}HFu<m uTFTHFu<m,即 ∥ H 1 / 2 F u ∥ 2 < m 1 / 2 \Vert H^{1/2}Fu\Vert_2<m^{1/2} H1/2Fu2<m1/2。进一步考虑矩阵等式
[ H A T A 0 ] [ F u 0 ] = [ H F u 0 ] (25) \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}\begin{bmatrix} Fu\\ 0 \end{bmatrix}=\begin{bmatrix} HFu\\ 0 \end{bmatrix}\tag{25} [HAAT0][Fu0]=[HFu0](25)

由式(25)可知
∥ [ H A T A 0 ] − 1 ∥ 2 ≥ ∥ [ F u 0 ] ∥ 2 ∥ [ H F u 0 ] ∥ 2 = ∥ F u ∥ 2 ∥ H F u ∥ 2 (26) \left\Vert \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\geq \frac{\left\Vert\begin{bmatrix} Fu\\ 0 \end{bmatrix}\right\Vert_2}{\left\Vert\begin{bmatrix} HFu\\ 0 \end{bmatrix}\right\Vert_2}=\frac{\Vert Fu\Vert_2}{\Vert HFu\Vert_2}\tag{26} [HAAT0]12[HFu0]2[Fu0]2=HFu2Fu2(26)

进一步结合 ∥ F u ∥ 2 ≥ σ m i n ( F ) \Vert Fu\Vert_2\geq\sigma_\mathrm{min}(F) Fu2σmin(F)以及
∥ H F u ∥ 2 ≤ ∥ H 1 / 2 ∥ 2 ∥ H 1 / 2 F u ∥ 2 < M 1 / 2 m 1 / 2 (27) \Vert HFu\Vert_2\leq\Vert H^{1/2}\Vert_2\Vert H^{1/2}Fu\Vert_2<M^{1/2}m^{1/2}\tag{27} HFu2H1/22H1/2Fu2<M1/2m1/2(27)

可得(式(27)让人莫名想起Young不等式)
∥ [ H A T A 0 ] − 1 ∥ 2 ≥ ∥ F u ∥ 2 ∥ H F u ∥ 2 > σ m i n ( F ) M 1 / 2 m 1 / 2 = K (28) \left\Vert \begin{bmatrix} H & A^\mathrm{T}\\ A & 0 \end{bmatrix}^{-1} \right\Vert_2\geq\frac{\Vert Fu\Vert_2}{\Vert HFu\Vert_2}>\frac{\sigma_\mathrm{min}(F)}{M^{1/2}m^{1/2}}=K\tag{28} [HAAT0]12HFu2Fu2>M1/2m1/2σmin(F)=K(28)

式(24)和(28)矛盾,从而证明存在常数 m m m使得 ∇ 2 f ~ ( z ) ⪰ m I \nabla^2\tilde{f}(z)\succeq mI 2f~(z)mI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值