ADMM之1范数理解

1. 问题

论文 [ADMM]Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers 中第6.1节的公式式怎么的出来的?
在这里插入图片描述

2. 分析XXX

xk+1=arg⁡min⁡xkρ2∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=arg⁡min⁡xkρ2∥Ax−z−b+1ρλ∥22=arg⁡min⁡xkρ2∥Ax−z−b+u∥22 x^{k+1}=\arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b\|_2^2+\langle \lambda, Ax-z-b \rangle \\ = \arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b+\frac{1}{\rho} \lambda\|_2^2 \\ = \arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b+u\|_2^2 \\ xk+1=argxkmin2ρAxzb22+λ,Axzb=argxkmin2ρAxzb+ρ1λ22=argxkmin2ρAxzb+u22
这一步是因为令 u=λρu=\frac{\lambda}{\rho}u=ρλ,从而改变了第三式的迭代表达(用λ\lambdaλ的时候,其迭代式是有系数ρ\rhoρ的)

f(x)=∥Ax−z−b+u∥F2,S=Ax−z−b+uf(x)=\|Ax-z-b+u\|_F^2, S=Ax-z-b+uf(x)=Axzb+uF2,S=Axzb+u
∂f∂S=2S=2(Ax−z−b+u) \frac{\partial{f}}{\partial{S}}=2S=2(Ax-z-b+u) Sf=2S=2(Axzb+u)

df=tr[(∂f∂S)TdS]=tr[(∂f∂S)Td(Ax−z−b+u)]=tr[(∂f∂S)T(Adx)]=tr[(AT∂f∂S)Tdx] df=tr[(\frac{\partial{f}}{\partial{S}})^TdS]=tr[(\frac{\partial{f}}{\partial{S}})^Td(Ax-z-b+u)] \\ =tr[(\frac{\partial{f}}{\partial{S}})^T(Adx) ] \\ =tr[(A^T\frac{\partial{f}}{\partial{S}})^Tdx ] \\ df=tr[(Sf)TdS]=tr[(Sf)Td(Axzb+u)]=tr[(Sf)T(Adx)]=tr[(ATSf)Tdx]
所以:
∂f∂x=AT∂f∂S=AT[2(Ax−z−b+u)]=2AT(Ax−z−b+u) \frac{\partial{f}}{\partial{x}}=A^T\frac{\partial{f}}{\partial{S}} =A^T[2(Ax-z-b+u)] \\ =2A^T(Ax-z-b+u) xf=ATSf=AT[2(Axzb+u)]=2AT(Axzb+u)
令上式为0,则
ATAx=AT(z+b−u)x=(ATA)−1AT(z+b−u) A^TAx=A^T(z+b-u) \\ x=(A^TA)^{-1}A^T(z+b-u) ATAx=AT(z+bu)x=(ATA)1AT(z+bu)
结论得证。

对于X的迭代,其主要是让偏导为0而计算得出的。\textcolor{red}{对于X的迭代,其主要是让偏导为0而计算得出的。}X0

3. 分析ZZZ

zk+1=arg⁡min⁡zk∥z∥1+ρ2∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=arg⁡min⁡xk∥z∥1+ρ2∥Ax−z−b+u∥22 z^{k+1}=\arg \min_{z^k} \|z\|_1+\frac{\rho}{2} \|Ax-z-b\|_2^2+\langle \lambda, Ax-z-b \rangle \\ = \arg \min_{x^k} \|z\|_1 + \frac{\rho}{2} \|Ax-z-b+u\|_2^2 \\ zk+1=argzkminz1+2ρAxzb22+λ,Axzb=argxkminz1+2ρAxzb+u22

其属于1范数+F范数求极小的范畴,直接写出答案:
z=S1ρ(Ax−b+u) z=S_{\frac{1}{\rho}}(Ax-b+u) z=Sρ1(Axb+u)
可参考 https://blog.youkuaiyun.com/lgl123ok/article/details/122458509。

4. 分析uuu

注意的是,此处的u=λρu=\frac{\lambda}{\rho}u=ρλ,才有
uk+1=uk+Ax−z−bu^{k+1}=u^k+Ax-z-buk+1=uk+Axzb
否则应该是:
λk+1=λk+ρ(Ax−z−b)\lambda^{k+1}=\lambda^k+\rho(Ax-z-b)λk+1=λk+ρ(Axzb)
其理论依据是原论文3.4-3.7式。


另外:https://zhuanlan.zhihu.com/p/86826985 对于ADMM有较详细的介绍,可供参考。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值