凸优化学习-（二十九）有约束优化算法——增广拉格朗日法、交替方向乘子法（ADMM）

最新推荐文章于 2025-04-01 14:43:20 发布

明远湖边的秃头

最新推荐文章于 2025-04-01 14:43:20 发布

阅读量1.9w

点赞数 42

分类专栏： # 凸优化文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/qq_40917612/article/details/105349585

版权

凸优化专栏收录该内容

30 篇文章

订阅专栏

凸优化学习

我们前面说过，拉格朗日法在实际中应用不大。为什么呢？因为 $\alpha$ 的取值很难取，这就导致拉格朗日法鲁棒性很低，收敛很慢，解很不稳定。于是就有了今天的增广拉格朗日法和ADMM。

学习笔记

一、增广拉格朗日法（Augmented Lagrange Method）

1、定义

一句话总结：在拉格朗日法的基础上，将拉格朗日函数替换为增广拉格朗日函数。

有问题形如：
$\begin{aligned} \min&& f(x)&\\ \text{s.t.} &&\textbf Ax-b&=0\\ \end{aligned}$
定义其增广拉格朗日函数为：
$l_c(x,v)=f(x)+v^T(\textbf Ax-b)+\frac c 2\|\textbf Ax-b\|^2_2$
增广拉格朗日法：
$\begin{aligned} x^{k+1}&=\arg\min_xl_c(x,v^k)\\ v^{k+1}&=v^k+c(\textbf A x^{k+1}-b) \end{aligned}$

2、证明增广拉格朗日法的解是原问题的解

有问题形如：
$\begin{aligned} \min&& f(x)&\\ (\text{P}_1)\qquad\qquad\quad\ \ \qquad\text{s.t.} &&\textbf Ax-b&=0 \end{aligned}$

增广拉格朗日函数对应的问题：
$\begin{aligned} \min&& f(x)+\frac c 2\|\textbf Ax-b\|_2^2&\\ (\text{P}_2)\qquad\text{s.t.} &&\textbf Ax-b&=0 \end{aligned}$
即证：
$\begin{cases} x_1^*=x_2^*\\ v_1^*=v_2^* \end{cases}$
对 $\text P_1$ ，其 $\text{KKT}$ 条件中的稳定性有：
$\begin{aligned} &&\nabla_{x_1}l(x_1^*,v_1^*)&=0\\ \Rightarrow&&\nabla_{x_1}\lbrace f(x_1^*)+(v_1^*)^T(\textbf A x^*_1-b)\rbrace&=0\\ \end{aligned}$
对 $\text P_2$ ，其 $\text{KKT}$ 条件中的稳定性有：
$\begin{aligned} &&\nabla_{x_2}l(x_2^*,v_2^*)&=0\\ \Rightarrow&&\nabla_{x_2}\lbrace f(x_2^*)+(v_2^*)^T(\textbf A x^*_2-b)\rbrace+c\textbf A^T(\textbf A x^*_2-b)&=0\\ \end{aligned}$
因为 $(\textbf A x^*_2-b)=0$ ，比较上下两式，得：
$\begin{cases} x_1^*=x_2^*\\ v_1^*=v_2^* \end{cases}$
证毕。

3、从拉格朗日法角度理解增广拉格朗日法（联系、对比）

有问题形如：
$\begin{aligned} \min&& f(x)&\\ \text{s.t.} &&\textbf Ax-b&=0\\ \end{aligned}$
拉格朗日法：
$\begin{aligned} x^{k+1}&=x^k-\alpha^k\big(\nabla f(x^k)+\textbf A^T v^k\big)\\ v^{k+1}&=v^k+\alpha^k(\textbf A x^k-b) \end{aligned}$
增广拉格朗日法：
$\begin{aligned} x^{k+1}&=\arg\min_x\nabla_xl_c(x,v^k)\\ v^{k+1}&=v^k+c(\textbf A x^{k+1}-b) \end{aligned}$
可以看到，增广拉格朗日法去掉了 $\alpha^k$ ，之后在性质分析中我们会讲到，在 $c$ 取得不是很精确的时候，收敛性也很好。还有一个变化是将 $(\textbf A x^k-b)$ 换为 $(\textbf A x^{k+1}-b)$ ,这是因为这两步是分开执行的，当算 $v^{k+1}$ 的时候， $x^{k+1}$ 已经算出来了，我们当然可以用更好的 $x$ 来替换它。其中 $c$ 一般取1，也可以取成递增序列。

拉格朗日法：我已经有了 $k$ 时刻的 $\text P$ 和 $\text D$ 的优化变量，根据给定规则去优化。本质上是 $\text P$ 和 $\text D$ 的方法，从 $\text P$ 和 $\text D$ 两个角度同时优化。
增广拉格朗日法：非同步优化，只更新 $v^k$ ，只算对偶最优解，可将 $x^{k+1}$ 带入下式， $x^{k+1}$ 只是副产品。

4、增广拉格朗日法的两条性质以及其收敛性探究

若 $v=v^*$ ，则 $\forall c>0,x^*=\arg\min\limits_xl_c(x,v^*)$ 。
若 $c\rightarrow+\infty$ ，则 $\forall v,x^*=\arg\min\limits_xl_c(x,v)$ 。

第一条性质表明得到 $v^*$ 后，可以马上算出 $x^*$ ，只要 $c > 0$ 就可以。第二条就更厉害了，如果你老是解不出 $v^*$ ，那就将 $c\rightarrow+\infty$ ，一样解的出 $x^*$ ，所以这个算法的鲁棒性是很好的。

下面用一个例子来体会一下这两条性质：

例：
$\begin{aligned} \min&& \frac 1 2 x_1^2+\frac 1 2 x_2^2&\\ \text{s.t.} &&x_1&=1\\ \end{aligned}$
直接用 $\text{KKT}$ 条件得到解：
$\begin{cases} x_1^*=1\\ x_2^*=0\\ v^*=-1 \end{cases}$
我们探究一下两条性质，其增广拉格朗日函数为：
$l_c(x,v)= \frac 1 2 x_1^2+\frac 1 2 x_2^2+v(x_1-1)+\frac c 2(x_1-1)^2$
性质一：当 $v=v^*=1时$ ，有：
$\begin{aligned} &&x^*&=\arg\min\limits_xl_c(x,v^*)\\ &&&=\arg\min\limits_x \frac 1 2 x_1^2+\frac 1 2 x_2^2+(x_1-1)+\frac c 2(x_1-1)^2\\ \Rightarrow&&&\begin{cases} x_1^*-1+c(x_1^*-1)=0\\ x_2^*=0 \end{cases} \end{aligned}$
可以直接解出 $x^*$ 。
性质二：当 $c\rightarrow+\infty$ ， $v$ 离 $v^*$ 还很远时：
$\begin{aligned} &&x^*&=\arg\min\limits_xl_c(x,v^*)\\ &&&=\arg\min\limits_x \frac 1 2 x_1^2+\frac 1 2 x_2^2+v(x_1-1)+\frac c 2(x_1-1)^2\\ \Rightarrow&&&\begin{cases} x_1^*=\frac{c-v}{c+1}\\ x_2^*=0 \end{cases} \end{aligned}$
分析一下 $x_1^*=\frac{c-v}{c+1}$ 说明什么？即当 $v\rightarrow-1时x_1\rightarrow1,c\rightarrow+\infty时x_1\rightarrow1$ ，这就是增广拉格朗日法的两条性质，也可以看出它的鲁棒性非常好。

收敛性探究：
在这道题中，我们可以得到：
$\begin{aligned} &&x^{k+1}&=\frac{c-v^k}{c+1}\\ &&v^{k+1}&=v^k+c(\textbf x^{k+1}-1)\\ \Rightarrow&&v^{k+1}&=v^k+c(\frac{c-v^k}{c+1}-1)\\ \Rightarrow&&v^{k+1}&=v^k-\frac c{c+1}(v^k+1)\\ 将v^*=-1代入：&&v^{k+1}&=v^k-\frac c{c+1}(v^k-v^*)\\ &&v^{k+1}-v^*&=v^k-v^*-\frac c{c+1}(v^k-v^*)\\ &&\frac{v^{k+1}-v^*}{v^k-v^*}&=\frac 1{c+1} \end{aligned}$
是线性收敛的。

二、交替方向乘子法（ADMM）

对于这么一个优化问题：
$min_xf(x)+g(x)$
假设它的性质是当 $f (x), g (x)$ 分开优化很简单，但是合起来优化很难时，我们就可以将它们拆开优化，上面问题等价于：
$\begin{aligned} \min&& f(x)+g(z)&\\ \text{s.t.} &&x&=z\\ \end{aligned}$
用增广拉格朗日法进行优化：
$\begin{aligned} \Rightarrow&l_c(x,z,v)=f(x)+g(z)+v^T(x-z)+\frac c 2 \|x-z\|_2^2\\ \Rightarrow&\begin{cases} 1.\lbrace x^{k+1},z^{k+1}\rbrace=\arg\min\limits_{x,z}f(x)+g(z)+v^T(x-z)+\frac c 2 \|x-z\|^2_2\\ 2.v^{k+1}=v^k+c(x^{k+1}-z^{k+1}) \end{cases} \end{aligned}$
在第一步的时候，我们固定 $x, z$ 中的一个，使用坐标轮换法迭代优化另一个。即将 $k + 1$ 步分为 $t$ 次，迭代中迭代，有点像二维数组的遍历，这样第一步就可以写为：
$\begin{aligned} &\text{1a.}x^{k+1|t+1}\Big|_{z=z^{k+1|t}}=\arg\min_xf(x)+\frac c 2\|x-z^{k+1|t}+\frac{v^k}c\|_2^2\\ &\text{1b.}z^{k+1|t+1}\Big|_{x=x^{k+1|t}}=\arg\min_zg(z)+\frac c 2\|z-x^{k+1|t+1}+\frac{v^k}c\|_2^2\\ \end{aligned}$
但是这个二重循环复杂度实在太高，一旦迭代次数过多收敛会非常慢，更别说这里只是两个函数求和，那我要是多个函数求和怎么办？于是就有了交替方向乘子法（ADMM），它采用分布式的计算来解决了这个问题。

假设我们现在有一个中心计算机和它所通信的一个计算机群，我们考虑这么一个优化问题：
$\begin{aligned} \min&& \sum_{i=1}^n f_i(x)&\\ \end{aligned}$
类似于上面的转换，我们构造一下它的等价问题：
$\begin{aligned} \min&& \sum_{i=1}^n f_i(x_i)&\\ \text{s.t.} &&x_i&=z\qquad i=1,\cdots ,n\\ \end{aligned}$
其增广拉格朗日函数：
$l_c=\sum_{i=1}^nf_i(x_)+\sum_{i=1}^nv_i^T(x_i-z)+\frac c 2 \sum_{i=1}^n\|x_i-z\|_2^2$
接下来我们按照上面的 $\text{1a,1b,2}$ 写出 $\text{1,2,3}$ 三步，同时对每一步进行一些等价变换，就得到了ADMM。
$\begin{aligned} \text{1.}&&\lbrace x_i^{k+1}\rbrace&=\arg\min_{\lbrace x_i\rbrace}\sum_{i=1}^nf_i(x_i)+\frac c 2\sum_{i=1}^n\|x_i-z^k+\frac{v_i^k} c\|_2^2\\ \Leftrightarrow&& x_i^{k+1}&=\arg\min_{ x_i}\sum_{i=1}^nf_i(x_i)+\frac c 2\sum_{i=1}^n\|x_i-z^k+\frac{v_i^k} c\|_2^2\\ \text{2.}&& z^{k+1}&=\arg\min\frac c 2\sum_{i=1}^n\|z-x_i^{k+1}-\frac{v_i}{c}\|_2^2\\ \Leftrightarrow&& z^{k+1}&=\frac 1 n \sum_{i=1}^n(x_i^{k+1}+\frac {v_i}c)\\ \text{3.}&&v_i^{k+1}&=v^k+c(x_i^{k+1}-z^{k+1}) \end{aligned}$
第一步的转换是将求和转换为分布，第二步就是直接解出来了。

梳理一下，我们得到ADMM为：
对于问题：
$\begin{aligned} \min&& \sum_{i=1}^n f_i(x_i)&\\ \text{s.t.} &&x_i&=z\qquad i=1,\cdots ,n\\ \end{aligned}$
可以按照如下方法求解：
$\begin{aligned} \text{1.}&& x_i^{k+1}&=\arg\min_{ x_i}\sum_{i=1}^nf_i(x_i)+\frac c 2\sum_{i=1}^n\|x_i-z^k+\frac{v_i^k} c\|_2^2\\ \text{2.}&& z^{k+1}&=\frac 1 n \sum_{i=1}^n(x_i^{k+1}+\frac {v_i}c)\\ \text{3.}&&v_i^{k+1}&=v^k+c(x_i^{k+1}-z^{k+1}) \end{aligned}$
其中 $z$ 是中心计算机要算的东西，计算机群更新 $x, v$ 。在每一步，中心计算机得到 $x, v$ 后计算 $z$ 然后将 $z$ 发给计算机群；计算机群得到 $z$ 后计算 $x, v$ 并提交 $x, v$ 给中心计算机，如此循环往复，最终得到解。