1. 问题
论文 [ADMM]Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers 中第6.1节的公式式怎么的出来的?
2. 分析 X X X
x
k
+
1
=
arg
min
x
k
ρ
2
∥
A
x
−
z
−
b
∥
2
2
+
⟨
λ
,
A
x
−
z
−
b
⟩
=
arg
min
x
k
ρ
2
∥
A
x
−
z
−
b
+
1
ρ
λ
∥
2
2
=
arg
min
x
k
ρ
2
∥
A
x
−
z
−
b
+
u
∥
2
2
x^{k+1}=\arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b\|_2^2+\langle \lambda, Ax-z-b \rangle \\ = \arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b+\frac{1}{\rho} \lambda\|_2^2 \\ = \arg \min_{x^k} \frac{\rho}{2} \|Ax-z-b+u\|_2^2 \\
xk+1=argxkmin2ρ∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=argxkmin2ρ∥Ax−z−b+ρ1λ∥22=argxkmin2ρ∥Ax−z−b+u∥22
这一步是因为令
u
=
λ
ρ
u=\frac{\lambda}{\rho}
u=ρλ,从而改变了第三式的迭代表达(用
λ
\lambda
λ的时候,其迭代式是有系数
ρ
\rho
ρ的)
令
f
(
x
)
=
∥
A
x
−
z
−
b
+
u
∥
F
2
,
S
=
A
x
−
z
−
b
+
u
f(x)=\|Ax-z-b+u\|_F^2, S=Ax-z-b+u
f(x)=∥Ax−z−b+u∥F2,S=Ax−z−b+u
则
∂
f
∂
S
=
2
S
=
2
(
A
x
−
z
−
b
+
u
)
\frac{\partial{f}}{\partial{S}}=2S=2(Ax-z-b+u)
∂S∂f=2S=2(Ax−z−b+u)
d
f
=
t
r
[
(
∂
f
∂
S
)
T
d
S
]
=
t
r
[
(
∂
f
∂
S
)
T
d
(
A
x
−
z
−
b
+
u
)
]
=
t
r
[
(
∂
f
∂
S
)
T
(
A
d
x
)
]
=
t
r
[
(
A
T
∂
f
∂
S
)
T
d
x
]
df=tr[(\frac{\partial{f}}{\partial{S}})^TdS]=tr[(\frac{\partial{f}}{\partial{S}})^Td(Ax-z-b+u)] \\ =tr[(\frac{\partial{f}}{\partial{S}})^T(Adx) ] \\ =tr[(A^T\frac{\partial{f}}{\partial{S}})^Tdx ] \\
df=tr[(∂S∂f)TdS]=tr[(∂S∂f)Td(Ax−z−b+u)]=tr[(∂S∂f)T(Adx)]=tr[(AT∂S∂f)Tdx]
所以:
∂
f
∂
x
=
A
T
∂
f
∂
S
=
A
T
[
2
(
A
x
−
z
−
b
+
u
)
]
=
2
A
T
(
A
x
−
z
−
b
+
u
)
\frac{\partial{f}}{\partial{x}}=A^T\frac{\partial{f}}{\partial{S}} =A^T[2(Ax-z-b+u)] \\ =2A^T(Ax-z-b+u)
∂x∂f=AT∂S∂f=AT[2(Ax−z−b+u)]=2AT(Ax−z−b+u)
令上式为0,则
A
T
A
x
=
A
T
(
z
+
b
−
u
)
x
=
(
A
T
A
)
−
1
A
T
(
z
+
b
−
u
)
A^TAx=A^T(z+b-u) \\ x=(A^TA)^{-1}A^T(z+b-u)
ATAx=AT(z+b−u)x=(ATA)−1AT(z+b−u)
结论得证。
对 于 X 的 迭 代 , 其 主 要 是 让 偏 导 为 0 而 计 算 得 出 的 。 \textcolor{red}{对于X的迭代,其主要是让偏导为0而计算得出的。} 对于X的迭代,其主要是让偏导为0而计算得出的。
3. 分析 Z Z Z
z k + 1 = arg min z k ∥ z ∥ 1 + ρ 2 ∥ A x − z − b ∥ 2 2 + ⟨ λ , A x − z − b ⟩ = arg min x k ∥ z ∥ 1 + ρ 2 ∥ A x − z − b + u ∥ 2 2 z^{k+1}=\arg \min_{z^k} \|z\|_1+\frac{\rho}{2} \|Ax-z-b\|_2^2+\langle \lambda, Ax-z-b \rangle \\ = \arg \min_{x^k} \|z\|_1 + \frac{\rho}{2} \|Ax-z-b+u\|_2^2 \\ zk+1=argzkmin∥z∥1+2ρ∥Ax−z−b∥22+⟨λ,Ax−z−b⟩=argxkmin∥z∥1+2ρ∥Ax−z−b+u∥22
其属于1范数+F范数求极小的范畴,直接写出答案:
z
=
S
1
ρ
(
A
x
−
b
+
u
)
z=S_{\frac{1}{\rho}}(Ax-b+u)
z=Sρ1(Ax−b+u)
可参考 https://blog.youkuaiyun.com/lgl123ok/article/details/122458509。
4. 分析 u u u
注意的是,此处的
u
=
λ
ρ
u=\frac{\lambda}{\rho}
u=ρλ,才有
u
k
+
1
=
u
k
+
A
x
−
z
−
b
u^{k+1}=u^k+Ax-z-b
uk+1=uk+Ax−z−b
否则应该是:
λ
k
+
1
=
λ
k
+
ρ
(
A
x
−
z
−
b
)
\lambda^{k+1}=\lambda^k+\rho(Ax-z-b)
λk+1=λk+ρ(Ax−z−b)
其理论依据是原论文3.4-3.7式。
另外:https://zhuanlan.zhihu.com/p/86826985 对于ADMM有较详细的介绍,可供参考。