最优化理论(一）_x1 x2g(x1)g(x2)-优快云博客

本文链接：https://blog.youkuaiyun.com/designed_by_lyz/article/details/146180798

最优化理论

第一节课

定义

从一个可行解的集合寻找出最好的元素

集合->问题
寻找->设计算法
最好的->评价标准

数学模型

目标函数/损失函数,一般取极小 minimize min
约束 subject to s.t.
1. 等式约束
2. 不等式约束
最优解: $x^* \in R^n$ , $x^*$ 默认为最优解

例子

数据拟合问题(凸优化)

考虑测量重力加速度的实验, $s=1/2gt^2(+\epsilon)$ , $\epsilon$ 为误差
我们有 $\epsilon_i=s_i-1/2gt_i^2$ ,n 个方程,n+1 个未知数

我们要使 $min\sum_{i=1}^n\epsilon_i^2$ ,即为最小二乘法
或者极小化范数

采取哪种评价标准取决于你认为的噪声类型,1.是高斯噪声,2.是拉普拉斯噪声

线性回归问题(凸优化)

考虑多个样本多个自变量同时影响一个因变量,要找出回归函数
$b_i=x_1a_{11}+…+x_na_{1n}(+\epsilon),i\in(1,m)$

最小二乘回归
lasso
岭回归

非线形回归(非凸优化)

神经网络
$x_i=f_i(x_{i-1},…w_1,…)$ .对于一个样本 $x^{(i)}$ 和 $y^{(i)}$ ,预测结果为 $\widehat{y}$ ,此时误差为 $||\widehat{y}-y^{(i)}||$

第二节课

分类

线形规划与非线性

只要目标函数和约束有一个不是线性的就是非线性规划问题

凸和非凸优化问题

凸集
线形规划问题是凸优化问题的一个特例

仿射集

定义:对于仿射集 C, $\forall x_1,x_2\in C$ ,有 $\theta x_1+(1-\theta)x_2\in C,\forall \theta\in R$
仿射组合:对于 $x_1,x_2,,,,x_n\in C, \theta_1+\theta_2+,,,+\theta_n=1$ ,则 $\theta_1 x_1+\theta_2 x_2+,,,+\theta_n x_n$ 为仿射组合
仿射包

凸集

定义:对于凸集 C, $\forall x_1,x_2\in C$ ,有 $\theta x_1+(1-\theta)x_2\in C,\forall \theta\in [0,1]$
凸组合:对于 $x_1,x_2,,,,x_n\in C, \theta_1+\theta_2+,,,+\theta_n=1,\forall\theta_i\geq0$ ,则 $\theta_1 x_1+\theta_2 x_2+,,,+\theta_n x_n$ 为凸组合
凸包 Convex Hull
凸集的特例:凸锥不要求 $\theta$ 和为 1

对定义的理解:

先定义凸组合,然后对一个集合内的所有元素进行凸组合构成的集合称为凸包,那么凸集就是一个凸包是自身子集的集合;
同理有仿射组合,仿射包,仿射集

第三节课

空集是凸集,仿射集,凸锥
空集+一个点是凸集,仿射集,凸锥
n 维空间是凸集,仿射集,凸锥

超平面与半空间

对任意 n 维非 0 向量 a, ${x|a^Tx=b\}$ 是超平面, $\{x|a^Tx\leq b\}$ 是半平面

$P\succ 0$
对于正定对称矩阵 $P\in S^n_{++}$ ,有 $\{x|(x-x_c)P^{-1}(x-x_c)\leq 1\}$ 是椭球

$S^b_{+}$ (半正定对称矩阵)是凸锥
$S^b_{++}$ (正定对称矩阵)是凸集

保凸运算

交
仿射变换
和 $\{x_1+x_2|x_1\in S_1,x_2\in S_2\}$
直积 $\{(x_1,x_2)|x_1\in S_1,x_2\in S_2\}$
透视函数及其逆
- 性质: $P:R^{n+1}\rightarrow R^n$
  $domP=R^n\times R_{++}$ dom 表示其定义域,x 表示直积
- def= $P(z,t)=\frac{z}{t}$ z 是 n 维的
- 保凸:
线形分数函数
- def: $g:R^n\rightarrow R^{m+1}$
- $g(x)= \begin{bmatrix} 1 & 2 \ 3 & 4 \ \end{bmatrix} $
- 线形分数函数再套一个透视函数就可以

向量模 $x$ 等于 $x^Tx$

第四节课

凸函数,domf 为凸

def: $f(\theta x+(1-\theta)x)\leq\theta f(x)+(1-\theta)f(x)$
def 在 $\theta\in(0,1)$ 严格成立(即把小于等于换成小于),则是严格凸

凹函数:f 为凸函数,-f 为凹函数
高维凸函数定义

凸函数的扩展

$domf\in R^n$
在 domf 外的直接定义为正无穷,记为 $\tilde{f}$

第五节课

凸函数一阶条件:可微
强凸强于严格凸强于凸函数
严格凸最小值点只有一个

二阶条件

Hession 矩阵 $\nabla^2f(x)$

要求 f 二阶可微,则 Hession 矩阵对称 $\nabla^2f\in S^n$
要求 domf 为凸集

$\mu强凸\Leftrightarrow f(y)\geq f(x)+\nabla f^T(x)(y-x)+\frac{\mu}{2}||y-x||_2^2,\mu>0$

$凸函数\Leftarrow \nabla^2f(x)\succeq 0,\forall x\in domf$

$严格凸\Leftarrow \nabla^2f(x)\succ 0,\forall x\in domf$

$强凸\Leftrightarrow\nabla^2f(x)-\mu I\succeq0,\forall x\in domf$

例子: $f(x)=\frac{1}{2}x^TPx+q^Tx+r,P\in S^n,q\in R^n,r\in R$

例子:范数–一定是凸函数

仅有原点为 0
满足三角不等式
p(ax)=ap(x)
证明 $p(\theta x+(1-\theta)y)和p(\theta x)+p((1-\theta)y)$ 的大小
凸组合的函数值和函数值的凸组合

第六节课

极大值函数:凸函数,用凸组合的函数值小于函数值的凸组合可以证
logsumexp 函数:极大值函数的解析近似
$f(x_1,...,x_n)=log(e^{x_1}+...e^{x_n})$ 用缩放不等式可以看出近似
$max\{x_1,..,x_n\}\leq f(x_1,...,x_n)\leq logn+max\{x_1,..,x_n\}$
$\frac{\partial f}{\partial x_i}=\frac{e^{x_i}}{e^{x_1}+...+e^{x_n}}$
$\frac{\partial^2 f}{\partial x_i\partial x_j}\overset{i\neq j}{=}\frac{-e^{x_i}e^{x_j}}{(e^{x_1}+...+e^{x_n})^2}\overset{i=j}{=}\frac{e^{x_i}}{e^{x_1}+...+e^{x_n}}-\frac{(e^{x_i})^2}{(e^{x_1}+...+e^{x_n})^2}$
$def z=(e^{x_1}+...+e^{x_n})^T$ $H=\frac{1}{(1^Tz)^2}(1^TzDiag(z)-zz^T)$
判断半正定, $\forall V\in R^n,V^TKV$

保凸操作

非负加权和
非负积分
$f(x,y),\forall y\in A$ ,均为 x 的凸函数,A 可以为凸或非凸
仿射映射
$f:R^m\rightarrow R, A\in R^{m\times n},b\in R^m,g(x)=f(Ax+b),domg=\{x|Ax+b\in domf\}$
若 f 为凸,则 g 为凸
两个函数的极大
多个函数的极大,例 Piecewise Linear
分段线性函数:多个线性函数的极大为凸函数
sup 上确界
$f(x,y)对于x为凹,\forall y\in A,g(x)=\mathop{sup}\limits_{y\in A} f(x,y)$

第七节课

函数的组合

证明函数的组合的凸性

$h:R\rightarrow R,g:R^n\rightarrow R$
f(x)=h(g(x))记为 $f=h\circ g$

4 个凸性证明条件原始条件一阶条件二阶条件(要求二阶可微)

这里用二阶条件(若 h,g 二阶可微)给出充分不必要条件
$f^{''}(x)=h^{''}(g(x))(g^{'}(x))^2+h^{'}(g(x))g^{''}(x)$
h,g 为凸函数,h 单调递增 f 为凸
h 为凸函数,g 为凹函数,h 单调递减 f 为凸

函数的透视

$f:R^n\rightarrow R,g:R^n \times R_{++}\rightarrow R$
$g(x,t)=tf(\frac{x}{t})$
f 和 g 同凹同凸

函数的共轭

定义 $f^*(y)=\mathop{sup}\limits_{x\in domf}\{y^Tx-f(x)\}$
类似于上节课的多个线性函数的极大

凸集和凸函数的联系

凸函数的定义域是凸集

$\alpha次水平集: f:R^n\rightarrow R ,C_\alpha=\{x\in domf|f(x)\leq\alpha\}$
如果一个函数是凸函数,则他的所有 $\alpha$ 次水平集都是凸集

第八节课

$\alpha$ 次水平集的性质可以由 1.凸函数的 dom 是凸集 2.对于凸函数,凸组合的函数值小于函数值的凸组合

所有的 $\alpha$ 次水平集都是凸集,不一定说明该函数为凸函数

例子: $f(x)=x_1^2+x_2^2$ 由等高线的疏密可以看到

拟凸函数单模态函数

def1:所有的 $\alpha$ 次水平集都是凸集,该函数被称为拟凸函数
def2: $f:R^n\rightarrow R\rightleftarrows domf为凸,\forall x,y \in domf, max\{f(x),f(y)\}\geq f(\theta x+(1-\theta)y)$
这个定义可以看出,如果是凸函数则一定是拟凸函数

ps:拟凸函数只有一个山谷,所以凸函数的优化算法一般也会适用于拟凸函数

例: $f(x)=\frac{a^Tx+b}{c^Tx+d}$ 线性分数函数是非凸,但是是拟凸
$C_\alpha=\{\frac{a^Tx+b}{c^Tx+d}\leq\alpha,c^Tx+d\geq 0\}$
可以看出是线性的交集,所以是拟凸函数

什么是凸优化问题

一般优化问题:min f(x) 约束

无约束优化/有约束优化

定义域 D,所有函数定义域的交集
可行解集 X(点满足约束且在定义域内),
最优值 $p^*=\inf\{f_0(x)|x\in X\}$ ,
最优解 $x^*\in X ,f_0(x^*)=p^*$ ,
最优解集(如果有多个最优解,那么他们可以组成集合)
$\epsilon 次优解集,x_\epsilon=\{x|f_(x)\leq p^*+\epsilon,x\in X$ $x_\epsilon$ 不一定靠近 $x^*$
局部最优解 $\exist R>0 s.t.f_0(x)=inf\{f_0(z)|x\in X,z\in X,||x-z||_2\leq R\}$ 局部最优解集

广义: $f_0(x)$ 是凸函数,X 是凸集
狭义: $f_0(x)$ 是凸函数, $f_i(x)$ 为凸函数, $h_j(x)$ 为仿射函数

其中 $f_i(x)$ 为不等式约束, $h_j(x)$ 为等式约束

例: $f_0(x)=x_1^2+x_2^2,s.t.f_1(x)=\frac{x_1}{1+x_2^2}\leq0,h_1(x)=(x_1+x_2)^2=0$
广义凸优化,不是狭义凸优化

后面的课程默认凸优化问题为狭义凸优化问题

凸优化问题性质

局部最优等价全局最优(凸函数性质)
证明:反证法若 x 为局部 R 最优,y 为全局最优,取 R 范围内和 xy 连线的交集上一点,证明这点比 f(x)更小
若 $f_0(x)$ 可微, $\forall y\in X,\nabla^Tf_0(x^*)(y-x^*)\geq0,x^*\in X$ 等价于 $x^*$ 为最优解
简单来说就是无约束可微下梯度为 0 代表最优解,有约束下则是说明梯度和所有 y 都在等高线切线同一侧(点积大于 0)

第九节课

例子 1
$min f_0(x), s.t.Ax=b$
$Ax^*=b,\forall y\in X, Ay=b则y=x^*+v. Ay=Ax^*+Av\rightarrow v\in N(A)$

若 A 可逆,则 $y-x^*$ 是 0

例子 2
$minf_0(x),s.t.x\geq 0$ x 的每一维都要大于 0

$\nabla^Tf_0(x^*)\ngeq0$

线性规划问题

$\mathop{min}\limits_x C^Tx+d,s.t.Gx\leq h,Ax=b$

Dantzig

引入松弛变量小技巧上面的条件可以转化为
$\mathop{min}\limits_{x,S} C^Tx+d,s.t.Gx+S=h,Ax=b,S\geq0$
S 为 slack variable 松弛变量

$\mathop{min}\limits_{x^+,x^-,S} C^T(x^+-x^-)+d,s.t.G(x^+-x^-)+S=h,A(x^+-x^-)=b,S\geq0,x^+\geq0,x^-\geq0$

标准形式
$C^Tx,s.t.Ax=b,x\geq0$

例子食谱问题
m 种营养不低于 b1,……,bm
n 种食物单位食物 j 营养 aij,……,amj
单位食物 j 价格 cj
目标花钱最少,满足需求

二次规划问题

$min\frac{1}{2}x^TPx+q^Tx+r,s.t.Gx=h,Ax=b$ 其中 $P\in S^n_+,q\in R^n,r\in R$

quadprog

二次约束的二次规划

$min\frac{1}{2}x^TP_0x+q_0^Tx+r_0,s.t.\frac{1}{2}x^TP_ix+q_i^Tx+r_i,Ax=b$ 其中 $P_i\in S^n_+,q_i\in R^n,r_i\in R$

第十节课

例子最小二乘问题
本质是带噪的测量
$\mathop{min}\limits_x\frac{1}{2}||Ax-b||_2^2$

$A^TA$ 肯定是半正定矩阵,任意 v 乘起来就可以知道

最小二乘解 $x=(A^TA)^{-1}A^Tb$

但实际中通常考虑 $\mathop{min}\limits_x\frac{1}{2}||Ax-b||_2^2+\lambda_0||x||_0$ ,希望零范数尽可能大(即解尽可能稀疏),但是这个问题就变成了非凸问题了

不过陶哲轩证明了上面的最优解等价于 $\mathop{min}\limits_x\frac{1}{2}||Ax-b||_2^2+\lambda_1||x||_1$ 的最优解
1 范数最小化的最小值

通常我们对于 $\lambda$ 是有一个估计的,接下来我们尝试将这个 1 范数移到约束上 $\mathop{min}\limits_x\frac{1}{2}||Ax-b||_2^2,s.t.||x||_1\leq\epsilon_1$ ,1 范数正则化的最小二乘

上面的几个问题都是二次规划问题, $\lambda$ 一般大于 0

$\mathop{min}\limits_x\frac{1}{2}||Ax-b||_2^2+\frac{\lambda_2}{2}||x||_2^2$ QP 问题(二次规划)
最优解为 $x=(A^TA+\lambda_2I)^{-1}A^Tb$
这个问题有叫岭回归,基于每个向量的各个分量都大小比较接近的假设

上面的式子又等于 $\mathop{min}\limits_x\frac{1}{2}||Ax-b||_2^2,s.t.||x||_2^2\leq\epsilon_2$ ,这是 QCQP 问题(二次约束的二次规划问题)

例子投资组合问题

$maxP_1x_1+...+P_nx_n,s.t.x_1+...+x_n\leq B,x\geq0$
x 代表投入资金,最后获得 Px 的回报

但我们通常不知道 P,不过对于 P 这些随机变量我们可以知道其协方差 $\Sigma$ 和房车

这时目标函数变为极小化风险 $x^T\Sigma x$ ,
约束为 $s.t.\bar{P_1}x_1+...+\bar{P_n}x_n\geq r_{min},x_1+...+x_n=B,x\geq0$ ,

这里的协方差根据定义是正定的,所以这是 QP 问题

上面的模型由Markowitz提出

例子线性分数规划

半定规划 SDP

第十一节课

多目标优化

对于好解的定义比较困难,到底是各个目标都好还是某几项突出为好呢

帕累托最优解是一个向量,可能是有很多个解的组合

一个问题的所有帕累托最优解的集合是帕累托最优面

$\{f_{01}(x)...f_{0q}(x)\},s.t.x\in X$ 若这里的目标函数和约束都是凸则可以转化为下面的形式
$\lambda_1f_{01}(x)+...+\lambda_qf_{0q}(x),\lambda_1,...,\lambda_q\geq0,s.t.x\in X$

这里求解帕累托最优面的方法其实就是将一个多目标最优化变为多次单目标最优化的求解

对偶性

本章分析的是一般优化问题(可能非凸)
$f_0(x),s.t.f_i(x)\leq0,h_j=0$
可行域 X,定义域 D

拉格朗日函数

$L(x,\lambda,v)=f_0(x)+\sum\limits_{i=1}^m\lambda_if_i(x)+\sum\limits_{j=1}^pv_ih_j(x),x\in R^n,\lambda\in R^m,v\in R^p$
$domL=D\times R^m\times R^p$ ,其中 $\lambda,v$ 又叫拉格朗日乘子或对偶变量(dual variable),x 叫原变量(primal variable)

拉格朗日对偶函数

$g(\lambda,v)=\mathop{inf}\limits_{x\in D}L(x,\lambda,v)$ 注意这里 x 是定义域,其有以下性质

凹函数
$\forall\lambda\geq0,\forall v, g(\lambda,v)\leq p^*$

一般情况下对于 $\lambda,v$ 没有任何限制,只有在研究性质二的时候才会引入对于 $\lambda$ 的限制

于是对于一个一般的优化问题我们可以转化为 max 一个凹函数,即 min 一个凸优化问题来取得 $p^*$ 的下界估计

证明 $\forall\lambda\geq0,\forall v, g(\lambda,v)\leq p^*$

$g(\lambda,v)\leq L(x^*,\lambda,v)\leq p^*$

例子

$min x^Tx,s.t.Ax=b$

必考拉格朗日函数的计算
$L=x^Tx+\sum\limits_{j=1}^pv_j(a_j^Tx-b_j)=x^Tx+(Ax-b)^Tv=x^Tx+v^TAx-b^Tv$

求梯度得到 $x=-\frac{A^Tv}{2}$ 最小,所以 $g(v)=-\frac{1}{4}v^TAA^Tv-b^Tv$ 这是凹函数,符合结论

$C^Tx,s.t.Ax=b,x\geq0$

$L=C^Tx-x^T\lambda+(Ax-b)^Tv=(C-\lambda+A^Tv)^Tx-b^Tv$

这里对于下界要分情况讨论
$-b^Tv:A^Tv-\lambda+c=0$
$-\infin:其他$

第十二节课

例子 $minx^Twx,s.t.x_i=\pm1$

可行解集是非凸,因为是散点
做等价变换 $x_i^2-1=0$
$L(x,v)=x^Twx+\sum\limits_{i=1}^nv_i(x_i^2-1)=x^T(w+Diag(v))x-1^Tv$
$g (v)$ :若 $w + D ia g (v)$ 半正定则最小值为 $1^Tv$ ,否则是负无穷
$w+Diag(v)\succeq0$ 是关于 v 的凸集

对偶问题

对于 $maxg(\lambda,v),s.t.\lambda\geq0$ 是原来一般问题的对偶问题

$d^*$ 最优值 $\leq p^*$
$\lambda^*,v^*$ 最优解

和函数的共轭的关系

$f\rightarrow f^* :f^*(y)=\mathop{sup}\limits_{x\in domf}(y^Tx-f(x)$

$g(\lambda,v)=\mathop{inf}\limits_{x\in D}L(x,\lambda,v)=-\mathop{sup}\limits_{x\in domf}(-L(x,\lambda,v))$
当 $f_i,h_j$ 是 x 的线性的话,这个形式就和共轭一样了

例子 $minf_0(x),s.t.Ax\leq b,Cx=d$

$L=f_0(x)+(A^T\lambda+C^Tv)^Tx-\lambda^Tb-v^Td$
$g=-\mathop{sup}\limits_{x\in D}(-(A^T\lambda+C^Tv)^Tx-f_0(x))-\lambda^Tb-v^Td$
验证了对偶和共轭的关系

对于线性规划问题 $C^Tx,s.t.Ax=b,x\geq0$

$L=C^Tx-x^T\lambda+(Ax-b)^Tv=(C-\lambda+A^Tv)^Tx-b^Tv$

g= $-b^Tv:A^Tv-\lambda+c=0$
$-\infin:其他$

这次我们看他的对偶问题
$maxg(\lambda,v),s.t.\lambda\geq0\rightarrow max-b^Tv,s.t.A^Tv-\lambda+c=0,\lambda\geq0\rightarrow max-b^Tv,s.t.A^Tv+c\geq0$
如果我们只关注最优解
$b^Tv,s.t.A^Tv+c\geq0$

而且我们也可以证明线性规划问题的对偶的对偶等于自身

$min x^Tx,s.t.Ax=b$

$g(v)=-\frac{1}{4}v^TAA^Tv-b^Tv$
$\frac{1}{4}v^TAA^Tv-b^Tv$ 没法对偶了
凸优化问题的对偶的对偶不一定是自己

对于 $d^$ 和 $p^$ 的讨论

注意下面的 $d^*$ 是根据 max 的原本的对偶问题说的

$d^*\geq p^*$ 弱对偶性质
$d^*= p^*$ 强对偶性质
$d^*- p^*$ 对偶间隙
强对偶成立时,有对偶间隙为 0

对偶间隙为 0 的一个充分条件

def 相对内部
$D=\{x\in D|B(x,r)\cap affD\subseteq D,\exist r>0\}$

对于非凸问题,一般没有强对偶性
对于凸问题,如果满足 slater 条件,则有强对偶性

slater 条件 $\exist x\in relintD,使f_i(x)<0,Ax=b$
当 x 的定义域是全空间的时候, $x\in relintD$ 可以直接忽略

例子

QCQP 二次约束二次规划问题
$

slater 充分不必要

$x,s.t.x\leq0,-x\leq0$

$minx^TAx,s.t.x^Tx\leq1,A\in S^n$
这个例子中 $p^*=d^*$

第十三节课

对于对偶问题的理解

几何解释

$minf_0(x),s.t.f_1(x)\leq0$
定义 $G=\{(f_1(x),f_0(x))|x\in D\}$ 则对偶函数 $g(\lambda)=inf\{t+\lambda u|(u,t)\in G$

经济学解释指定生产计划

$minf_0(x),s.t.f_i(x)\leq0$ ,-f0 是利润.fi 是原材料限制
如果考虑用剩余的原材料可以买卖,设原材料价格 $\lambda_i\geq0$
这时的损失(负利润)就是 $L(x,\lambda)=f_0(x)+\sum\limits_{i=1}^m\lambda_if_i(x)$
这时的 g 则是会取 L 的下界,d* 还是会比 p*小,因为允许买卖肯定会赚更多钱
相等的情况要么不剩余资源,要么价格为 0

多目标优化解释目标和约束可以相互转化

对于一个凸优化问题 $minf_0(x),s.t.f_i(x)\leq0$
$L(x,\lambda)=f_0(x)+\sum\limits_{i=1}^m\lambda_if_i(x)$

考虑多目标优化问题 $minf_0(x),minf_1(x),,,f_m(x)$
可以通过求帕累托最优解变成 $min\{f_0(x)+\lambda_1f_1(x)+...+\lambda_mf_m(x),\lambda_i\geq0$ 和 L 就一样了

鞍点解释

min-max 不等式 $\mathop{sup}\limits_{z\in S_z}\mathop{inf}\limits_{w\in S_w}f(w,z)\leq\mathop{inf}\limits_{w\in S_w}\mathop{sup}\limits_{z\in S_z}f(w,z)$
我们更关心什么时候等于号会成立
若求解左边问题和右边问题的解是同一个元素,则等号成立

则对于这个点,是 w 方向最小,z 方向最高,称为鞍点

对于一般凸优化问题 $\mathop{sup}\limits_{\lambda\geq0}L=f_0(x),f_i(x)\leq0/+\infin,else$
$p^*=\mathop{inf}\limits_x\{f_0(x)|f_i(x)\leq0\}=\mathop{inf}\limits_x\mathop{sup}\limits_{\lambda\geq0}L$
$d^*=\mathop{sup}\limits_{\lambda\geq0}\mathop{inf}\limits_xL$

结论

$p^*\leq d^*$
$L(x,\lambda)$ 有鞍点等价 $p^*=d^*$ 且最优解是同一个

第十四节课

证明 $p^*=d^*$ 且最优解是同一个,设原对偶问题最优解为 $(\tilde{x},\tilde{\lambda})\rightarrow$

KKT 条件

一般优化问题最优解满足的性质(可能非凸, $p^*=d^*$ ),(可微,去掉也没关系,证明可能用到)

原问题 $minf_0(x),s.t.f_i(x)\leq0,h_j=0$
对偶问题 $maxg(\lambda,v),s.t.\lambda>0$

$f_0(x^*)=g(\lambda^*,v^*)=\mathop{min}\limits_xL(x,\lambda^*,v^*)$

若 $p^*=d^*$ ,则满足下面三类条件(合称 KKT 条件)

$\lambda^*_if_i(x^*)=0$ ,即互补松弛条件
梯度为 0 不一定是最优解,但最优解一定梯度为 0,要求 $\nabla L(x^*,\lambda^*,v^*)=0$ 稳定性条件(如果不可微这个条件会变成次梯度=0)
可行性条件,原问题和对偶问题的所有约束都应该被满足

结论一:优化问题满足 KKT 条件+这个优化问题是凸的 $\rightarrow p^*=d^*$
结论二: $p^*=d^*\rightarrow$ 满足 KKT 条件

证明结论一, $L(x,\tilde{\lambda},\tilde{v})$ 是凸函数

第十五节课

灌水问题 $min-\sum\limits_{i=1}^N(\alpha_i+x_i),s.t.x\geq0,1^Tx=1$

KKT 条件等价如下

$x^*\geq0$
$1^Tx=1$
$v^*\geq\frac{1}{\alpha_i+x_i}$
$x_i^*(v^*+\frac{1}{\alpha_i+x_i})=0$

分类讨论得到 $x^*_i=max\{0,\frac{1}{v^*}-\alpha_i\}$

SVM $max\frac{2}{||w||^2},s.t.y_i(w^Tx_i+b)\geq1$

等价于 $min\frac{||w||^2}{2},s.t.y_i(w^Tx_i+b)\geq1$

由于这个问题符合 slater 条件,所以可以使用 KKT 条件

最短路径问题

第十六节课

干扰问题

$minf_0(x),s.t.f_i(x)\leq0,h_j(x)=0$
$minf_0(x),s.t.f_i(x)\leq u_i,h_j(x)=w_j$

这时最优解为 $p^*(u,w)$

一个不重要的性质:若原问题为凸,则 $p^*(u,w)$ 是关于(u,w)为凸

一个重要的性质:若原问题为凸且对偶间隙为 0, $p^*(u,w)\geq p^*(0,0)-(\lambda^*)^Tu-(v^*)^Tw$ . $\lambda^*,v^*$ 是原对偶问题的解
证明见于照片

上面的式子类似于泰勒展开,什么时候大于等于能够看成约等于?这时要考虑局部敏感性

若原问题为凸,对偶间隙为 0, $p^*(u,w)$ 在 0 点可微,则 $\lambda_i^*=\frac{-\partial p^*(0,0)}{\partial u_i}$ , $v_j^*=\frac{-\partial p^*(0,0)}{\partial w_i}$

启发式算法

Boolean LP 布尔线性规划问题 $minc^Tx,s.t.Ax\leq b,x_i\in\{0,1\}$

线性规划松弛:将 $x_i\in\{0,1\}$ 变为 $0\leq x_i\leq 1$ ,再考虑满足约束

下面从原对偶问题的角度来看
先考虑原问题的对偶问题
$minc^Tx,s.t.Ax\leq b,x_i(x_i-1)=0$

$g(\lambda,v)= \left\{ \begin{aligned} &-\lambda^Tb-\frac{1}{4}\sum^m_{i=1}(c_i+a_i^T\lambda-v_i)^2/v_i,\forall i,v_i\geq0\\ &-\infin,else \end{aligned} \right.$