1. 问题
论文 [ADMM]Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers 中第6.1节的公式式怎么的出来的?
2. 分析XXX
xk+1=argminxkρ2∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=argminxkρ2∥Ax−z−b+1ρλ∥22=argminxkρ2∥Ax−z−b+u∥22
x^{k+1}=\arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b\|_2^2+\langle \lambda, Ax-z-b \rangle \\
= \arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b+\frac{1}{\rho} \lambda\|_2^2 \\
= \arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b+u\|_2^2 \\
xk+1=argxkmin2ρ∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=argxkmin2ρ∥Ax−z−b+ρ1λ∥22=argxkmin2ρ∥Ax−z−b+u∥22
这一步是因为令 u=λρu=\frac{\lambda}{\rho}u=ρλ,从而改变了第三式的迭代表达(用λ\lambdaλ的时候,其迭代式是有系数ρ\rhoρ的)
令 f(x)=∥Ax−z−b+u∥F2,S=Ax−z−b+uf(x)=\|Ax-z-b+u\|_F^2, S=Ax-z-b+uf(x)=∥Ax−z−b+u∥F2,S=Ax−z−b+u
则 ∂f∂S=2S=2(Ax−z−b+u)
\frac{\partial{f}}{\partial{S}}=2S=2(Ax-z-b+u)
∂S∂f=2S=2(Ax−z−b+u)
df=tr[(∂f∂S)TdS]=tr[(∂f∂S)Td(Ax−z−b+u)]=tr[(∂f∂S)T(Adx)]=tr[(AT∂f∂S)Tdx]
df=tr[(\frac{\partial{f}}{\partial{S}})^TdS]=tr[(\frac{\partial{f}}{\partial{S}})^Td(Ax-z-b+u)] \\
=tr[(\frac{\partial{f}}{\partial{S}})^T(Adx) ] \\
=tr[(A^T\frac{\partial{f}}{\partial{S}})^Tdx ] \\
df=tr[(∂S∂f)TdS]=tr[(∂S∂f)Td(Ax−z−b+u)]=tr[(∂S∂f)T(Adx)]=tr[(AT∂S∂f)Tdx]
所以:
∂f∂x=AT∂f∂S=AT[2(Ax−z−b+u)]=2AT(Ax−z−b+u)
\frac{\partial{f}}{\partial{x}}=A^T\frac{\partial{f}}{\partial{S}} =A^T[2(Ax-z-b+u)] \\
=2A^T(Ax-z-b+u)
∂x∂f=AT∂S∂f=AT[2(Ax−z−b+u)]=2AT(Ax−z−b+u)
令上式为0,则
ATAx=AT(z+b−u)x=(ATA)−1AT(z+b−u)
A^TAx=A^T(z+b-u) \\
x=(A^TA)^{-1}A^T(z+b-u)
ATAx=AT(z+b−u)x=(ATA)−1AT(z+b−u)
结论得证。
对于X的迭代,其主要是让偏导为0而计算得出的。\textcolor{red}{对于X的迭代,其主要是让偏导为0而计算得出的。}对于X的迭代,其主要是让偏导为0而计算得出的。
3. 分析ZZZ
zk+1=argminzk∥z∥1+ρ2∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=argminxk∥z∥1+ρ2∥Ax−z−b+u∥22 z^{k+1}=\arg \min_{z^k} \|z\|_1+\frac{\rho}{2} \|Ax-z-b\|_2^2+\langle \lambda, Ax-z-b \rangle \\ = \arg \min_{x^k} \|z\|_1 + \frac{\rho}{2} \|Ax-z-b+u\|_2^2 \\ zk+1=argzkmin∥z∥1+2ρ∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=argxkmin∥z∥1+2ρ∥Ax−z−b+u∥22
其属于1范数+F范数求极小的范畴,直接写出答案:
z=S1ρ(Ax−b+u)
z=S_{\frac{1}{\rho}}(Ax-b+u)
z=Sρ1(Ax−b+u)
可参考 https://blog.youkuaiyun.com/lgl123ok/article/details/122458509。
4. 分析uuu
注意的是,此处的u=λρu=\frac{\lambda}{\rho}u=ρλ,才有
uk+1=uk+Ax−z−bu^{k+1}=u^k+Ax-z-buk+1=uk+Ax−z−b
否则应该是:
λk+1=λk+ρ(Ax−z−b)\lambda^{k+1}=\lambda^k+\rho(Ax-z-b)λk+1=λk+ρ(Ax−z−b)
其理论依据是原论文3.4-3.7式。
另外:https://zhuanlan.zhihu.com/p/86826985 对于ADMM有较详细的介绍,可供参考。