5.7 约束优化最优性理论应用实例
5.7.1 仿射空间的投影问题
考虑优化问题
minx∈Rn12∣∣x−y∣∣22,s.t.Ax=b\min_{x{\in}R^n}\frac{1}{2}||x-y||_2^2,\\
s.t.{\quad}Ax=bx∈Rnmin21∣∣x−y∣∣22,s.t.Ax=b
其中A∈Rm×n,b∈Rm,y∈RnA{\in}R^{m \times n},b{\in}R^m,y{\in}R^nA∈Rm×n,b∈Rm,y∈Rn为给定的矩阵和向量,这里不妨设矩阵A是行满秩的,这个问题可以看成仿射平面{x∈Rn∣Ax=b}\{x{\in}R^n|Ax=b\}{x∈Rn∣Ax=b}的投影问题
对于等式约束,我们引入拉格朗日乘子λ∈Rm\lambda{\in}R^mλ∈Rm,构造拉格朗日函数
L(x,λ)=12∣∣x−y∣∣2+λT(Ax−b)L(x,\lambda)=\frac{1}{2}||x-y||^2+\lambda^T(Ax-b)L(x,λ)=21∣∣x−y∣∣2+λT(Ax−b)
因为只有仿射约束,估SlaterSlaterSlater条件满足,x∗x^*x∗为一个全局最优解,当且仅当存在λ∗∈Rm\lambda^*{\in}R^mλ∗∈Rm使得
{x∗−y+ATλ=0Ax∗=b \left\{
\begin{matrix}
x^*-y+A^T\lambda=0\\
Ax^*=b \\
\end{matrix}
\right.
{x∗−y+ATλ=0Ax∗=b
由上述KKT条件第一式,等号左右两边同时左乘AAA可得
Ax∗−Ay+AATλ=0Ax^*-Ay+AA^T\lambda=0Ax∗−Ay+AATλ=0
注意到Ax∗=bAx^*=bAx∗=b以及AATAA^TAAT是可逆矩阵,因此可以解出乘子
λ=(AAT)−1(Ay−b)\lambda=(AA^T)^{-1}(Ay-b)λ=(AAT)−1(Ay−b)
代入回去可以得到
x∗=y−AT(AAT)−1(Ay−b)x^*=y-A^T(AA^T)^{-1}(Ay-b)x∗=y−AT(AAT)−1(Ay−b)
5.7.2 线性规划问题
考虑线性规划问题
minx∈RncTx,s.t.Ax=b,x≥0(5.7.1)\min_{x{\in}R^n}{\quad}c^Tx,\\
s.t.{\quad}Ax=b,\\
x{\ge}0\tag{5.7.1}x∈RnmincTx,s.t.Ax=b,x≥0(5.7.1)
其中A∈Rm×n,b∈Rm,c∈RnA{\in}R^{m \times n},b{\in}R^m,c{\in}R^nA∈Rm×n,b∈Rm,c∈Rn分别为给定的矩阵和向量
拉格朗日函数可以写为
L(x,s,v)=cTx+vT(Ax−b)−sTx=−bTv+(ATv−s+c)Tx,s≥0L(x,s,v)=c^Tx+v^T(Ax-b)-s^Tx\\
=-b^Tv+(A^Tv-s+c)^Tx,s{\ge}0L(x,s,v)=cTx+vT(Ax−b)−sTx=−bTv+(ATv−s+c)Tx,s≥0
其中s∈Rn,v∈Rms{\in}R^n,v{\in}R^ms∈Rn,v∈Rm,由于线性规划是凸问题且满足SlaterSlaterSlater条件的,因此对于任意一个全局最优解x∗x^*x∗,我们有如下KKT条件
{c+ATv∗−s∗=0,Ax∗=bx∗≥0s∗≥0s∗x∗=0(5.7.2) \left\{
\begin{matrix}
c+A^Tv^*-s^*=0,\\
Ax^*=b \\
x^*{\ge}0\\
s^*{\ge}0\\
s^*x^*=0
\end{matrix}
\right.\tag{5.7.2}
⎩⎨⎧c+ATv∗−s∗=0,Ax∗=bx∗≥0s∗≥0s∗x∗=0(5.7.2)
我们设原始问题和对偶问题最优解函数值分别为p∗p^*p∗和d∗d^*d∗,则根据p∗p^*p∗取值情况,有如下三种可能
(1)如果−∞<p∗<+∞(有界)-\infty<p^*<+\infty(有界)−∞<p∗<+∞(有界),那么原始问题可行而且存在最优解,由SlaterSlaterSlater条件知强对偶原理成立,因此有d∗=p∗d^*=p^*d∗=p∗,即对偶问题也是可行的且存在最优解
(2)如果p∗=−∞p^*=-\inftyp∗=−∞,那么原始问题可行,但目标函数值无下界,由弱对偶原理知d∗≤p∗=−∞d^*{\le}p^*=-\inftyd∗≤p∗=−∞,即d∗=−∞d^*=-\inftyd∗=−∞,因为对偶问题是对目标函数极大化,所以此时对偶问题不可行
(3)如果p∗=+∞p^*=+\inftyp∗=+∞,那么原始问题无可行解,注意到SlaterSlaterSlater条件对原始问题不成立,此时对偶问题既可能是函数值无界(d∗=+∞d^*=+\inftyd∗=+∞)也可能无可行解(d∗=−∞d^*=-\inftyd∗=−∞),我们说,不可能出现−∞<d∗<+∞-\infty<d^*<+\infty−∞<d∗<+∞的情形,这是因为如果对偶问题可行且存在最优解,那么可对对偶问题应用强对偶原理,进而导出原始问题也存在最优解,这矛盾了

5.7.3 基追踪
minx∈Rn∣∣x∣∣1,s.t.Ax=b(5.7.3)\min_{x{\in}R^n}||x||_1,\\
s.t.{\quad}Ax=b\tag{5.7.3}x∈Rnmin∣∣x∣∣1,s.t.Ax=b(5.7.3)
利用分解xi=xi+−xi−x_i=x_i^+-x_i^-xi=xi+−xi−,其中xi+=max{xi,0},xi−=max{−xi,0}x_i^+=max\{x_i,0\},x_i^-=\max\{-x_i,0\}xi+=max{xi,0},xi−=max{−xi,0}分别表示xxx的正部和负部,问题5.7.3的一种等价形式可以写成
min∑ixi++xi−,s.t.Ax+−Ax−=b,x+,x−≥0\min{\sum_i}x_i^++x_i^-,\\
s.t.{\quad}Ax^+-Ax^-=b,\\
x^+,x^-{\ge}0mini∑xi++xi−,s.t.Ax+−Ax−=b,x+,x−≥0
进一步的,令y=[xi+,xi−]T∈R2ny=[x_i^+,x_i^-]^T{\in}R^{2n}y=[xi+,xi−]T∈R2n,我们将问题5.7.3转化为如下线性规划问题
miny∈R2n1Ty,s.t.[A,−A]y=b,y≥0\min_{y{\in}R^{2n}}1^Ty,\\
s.t.{\quad}[A,-A]y=b,\\
y{\ge}0y∈R2nmin1Ty,s.t.[A,−A]y=b,y≥0
其中1=(1,1,⋯ ,1)T∈R2n1=(1,1,\cdots,1)^T{\in}R^{2n}1=(1,1,⋯,1)T∈R2n
那么根据一般线性规划的最优性条件,等价于求解
{1+[A,−A]Tv∗−s∗=0,[A,−A]y∗=by∗≥0s∗≥0s∗y∗=0(5.7.4) \left\{
\begin{matrix}
1+[A,-A]^Tv^*-s^*=0,\\
[A,-A]y^*=b \\
y^*{\ge}0\\
s^*{\ge}0\\
s^*y^*=0
\end{matrix}
\right.\tag{5.7.4}
⎩⎨⎧1+[A,−A]Tv∗−s∗=0,[A,−A]y∗=by∗≥0s∗≥0s∗y∗=0(5.7.4)
同样的,我们也可以直接推导5.7.3的最优性条件,拉格朗日函数为
L(x,v)=∣∣x∣∣1+vT(Ax−b)L(x,v)=||x||_1+v^T(Ax-b)L(x,v)=∣∣x∣∣1+vT(Ax−b)
x∗x^*x∗为全局最优解当且仅当存在v∗∈Rmv^*{\in}R^mv∗∈Rm使得
{0∈∂∣∣x∗∣∣1+ATv∗,Ax∗=b(5.7.5) \left\{
\begin{matrix}
0{\in}\partial||x^*||_1+A^Tv^*,\\
Ax^*=b \\
\end{matrix}
\right.\tag{5.7.5}
{0∈∂∣∣x∗∣∣1+ATv∗,Ax∗=b(5.7.5)
最优性条件5.7.4和5.7.5本质上是等价的
5.7.4 最大割问题的半定规划松弛以及非凸分解模型
第三章说明了最大割问题的半定规划松弛问题。如下
max<C,X>,s.t.Xii=1,i=1,2,⋯ ,n,X⪰0(5.7.6)\max{\quad}<C,X>,\\
s.t.{\quad}X_{ii}=1,i=1,2,\cdots,n,\\
X{\succeq}0\tag{5.7.6}max<C,X>,s.t.Xii=1,i=1,2,⋯,n,X⪰0(5.7.6)
该问题是一个凸优化问题,并且Slater约束品性成立,对于等式约束,我们引入拉格朗日乘子μiR,i=1,2,⋯ ,n\mu_{i}R,i=1,2,\cdots,nμiR,i=1,2,⋯,n;对于半正定约束,根据对偶锥,我们引入拉格朗日乘子Λ∈S+n\Lambda{\in}\mathcal{S}_+^nΛ∈S+n,拉格朗日函数为
L(X,μ,Λ)=<C,X>+∑i=1nμi(Xii−1)−Tr(XΛ)L(X,\mu,\Lambda)=<C,X>+\sum_{i=1}^n\mu_i(X_{ii}-1)-Tr(X\Lambda)L(X,μ,Λ)=<C,X>+i=1∑nμi(Xii−1)−Tr(XΛ)
根据约束优化问题的最优性条件
{C+Diag(u∗)−Λ∗=0,Xii∗=1X∗≥0Λ∗≥0Tr(X∗Λ∗)=0 \left\{
\begin{matrix}
C+Diag(u^*)-\Lambda^*=0,\\
X_{ii}^*=1 \\
X^*{\ge}0\\
\Lambda^*{\ge}0\\
Tr(X^*\Lambda^*)=0
\end{matrix}
\right.
⎩⎨⎧C+Diag(u∗)−Λ∗=0,Xii∗=1X∗≥0Λ∗≥0Tr(X∗Λ∗)=0
这个转化成迹就是因为X和ΛX和\LambdaX和Λ的半正定性,上述条件Tr(X∗Λ∗)=0Tr(X^*\Lambda^*)=0Tr(X∗Λ∗)=0可以等价地用X∗Λ∗X^*\Lambda^*X∗Λ∗代替
下面的非凸分解模型还没看明白。。。以后有机会回来补
本文介绍了约束优化中的投影问题(仿射空间),包括拉格朗日函数和KKT条件的应用。随后讨论了线性规划问题及其KKT条件,以及最大割问题的半定规划松弛。最后提到一种非凸分解模型,但具体内容未详述。
1011

被折叠的 条评论
为什么被折叠?



