可分和
如果
f
f
f可分为俩个变量:
f
(
x
,
y
)
=
φ
(
x
)
+
ψ
(
y
)
f(x, y)=\varphi(x) + \psi(y)
f(x,y)=φ(x)+ψ(y), 于是:
如果
f
f
f是完全可分的,即
f
(
x
)
=
∑
i
=
1
n
f
i
(
x
i
)
f(x) = \sum_{i=1}^n f_i (x_i)
f(x)=∑i=1nfi(xi):
(
p
r
o
x
f
(
v
)
)
i
=
p
r
o
x
f
i
(
v
i
)
(\mathbf{prox}_f(v))_i = \mathbf{prox}_{f_i}(v_i)
(proxf(v))i=proxfi(vi)
这个性质在并行算法的设计中非常有用。
基本的运算
如果
f
(
x
)
=
α
φ
(
x
)
+
b
f(x) = \alpha \varphi (x) + b
f(x)=αφ(x)+b,
α
>
0
\alpha > 0
α>0:
p
r
o
x
λ
f
(
v
)
=
p
r
o
x
α
λ
φ
(
v
)
\mathbf{prox}_{\lambda f} (v) = \mathbf{prox}_{\alpha \lambda \varphi} (v)
proxλf(v)=proxαλφ(v)
如果
f
(
x
)
=
φ
(
α
x
+
b
)
f(x) = \varphi (\alpha x +b)
f(x)=φ(αx+b),
α
≠
0
\alpha \ne 0
α̸=0:
证:
p
r
o
x
λ
f
(
v
)
=
a
r
g
m
i
n
x
φ
(
α
x
+
b
)
+
1
2
λ
∥
x
−
v
∥
2
2
=
a
r
g
m
i
n
x
φ
(
z
)
+
1
2
λ
∥
(
z
−
b
)
/
α
−
v
∥
2
2
=
a
r
g
m
i
n
x
φ
(
z
)
+
1
2
λ
α
2
∥
z
−
b
−
α
v
∥
2
2
=
1
α
(
p
r
o
x
α
2
λ
φ
(
α
v
+
b
)
−
b
)
\begin{array}{ll} \mathbf{prox}_{\lambda f}(v) &= \mathrm{argmin}_x \varphi(\alpha x+b) +\frac{1}{2\lambda}\|x-v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(z) + \frac{1}{2\lambda}\|(z-b)/\alpha -v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(z) + \frac{1}{2\lambda \alpha^2}\|z-b -\alpha v\|_2^2 \\ &= \frac{1}{\alpha} (\mathbf{prox}_{\alpha^2 \lambda \varphi}(\alpha v + b) - b) \end{array}
proxλf(v)=argminxφ(αx+b)+2λ1∥x−v∥22=argminxφ(z)+2λ1∥(z−b)/α−v∥22=argminxφ(z)+2λα21∥z−b−αv∥22=α1(proxα2λφ(αv+b)−b)
其中
z
=
α
x
+
b
z=\alpha x+b
z=αx+b,证毕.
如果
f
(
x
)
=
φ
(
Q
x
)
f(x) = \varphi(Qx)
f(x)=φ(Qx),且
Q
Q
Q为正交矩阵:
p
r
o
x
λ
f
(
v
)
=
Q
T
p
r
o
x
λ
φ
(
Q
v
)
\mathbf{prox}_{\lambda f} (v) = Q^T \mathbf{prox}_{\lambda \varphi}(Qv)
proxλf(v)=QTproxλφ(Qv)
如果
f
(
x
)
=
φ
(
x
)
+
a
T
x
+
b
f(x) = \varphi(x) + a^Tx + b
f(x)=φ(x)+aTx+b,则:
p
r
o
x
λ
f
(
v
)
=
p
r
o
x
λ
φ
(
v
−
λ
a
)
\mathbf{prox}_{\lambda f}(v) = \mathbf{prox}_{\lambda \varphi} (v-\lambda a)
proxλf(v)=proxλφ(v−λa)
证:
p
r
o
x
λ
f
(
v
)
=
a
r
g
m
i
n
x
φ
(
x
)
+
a
T
x
+
b
+
1
2
λ
∥
x
−
v
∥
2
2
=
a
r
g
m
i
n
x
φ
(
x
)
+
1
2
λ
(
x
T
x
−
2
v
T
x
+
2
λ
a
T
x
)
+
c
=
a
r
g
m
i
n
x
φ
(
x
)
+
1
2
λ
∥
x
−
(
v
−
λ
a
)
∥
2
2
=
p
r
o
x
λ
φ
(
v
−
λ
a
)
\begin{array}{ll} \mathbf{prox}_{\lambda f}(v) &= \mathrm{argmin}_x \varphi (x) + a^Tx + b + \frac{1}{2\lambda} \|x-v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(x) +\frac{1}{2 \lambda} (x^Tx -2v^Tx+2\lambda a^Tx)+c \\ &= \mathrm{argmin}_x \varphi(x) + \frac{1}{2 \lambda} \|x-(v-\lambda a)\|_2^2 \\ &= \mathbf{prox}_{\lambda \varphi}(v-\lambda a) \end{array}
proxλf(v)=argminxφ(x)+aTx+b+2λ1∥x−v∥22=argminxφ(x)+2λ1(xTx−2vTx+2λaTx)+c=argminxφ(x)+2λ1∥x−(v−λa)∥22=proxλφ(v−λa)
其中
c
c
c为与
x
x
x无关的项.
如果
f
(
x
)
=
φ
(
x
)
+
(
ρ
/
2
)
∥
x
−
a
∥
2
2
f(x) = \varphi(x) + (\rho/2) \|x -a \|_2^2
f(x)=φ(x)+(ρ/2)∥x−a∥22, 则:
p
r
o
x
λ
f
(
v
)
=
p
r
o
x
λ
~
φ
(
(
λ
~
/
λ
)
v
+
(
ρ
λ
~
)
a
)
\mathbf{prox}_{\lambda f} (v) = \mathbf{prox}_{\widetilde{\lambda}\varphi}\big((\widetilde{\lambda}/\lambda)v + (\rho \widetilde{\lambda})a \big)
proxλf(v)=proxλ
φ((λ
/λ)v+(ρλ
)a)
其中
λ
~
=
λ
/
(
1
+
λ
ρ
)
\widetilde{\lambda} = \lambda / (1+\lambda \rho)
λ
=λ/(1+λρ),证明方法和上面是类似的,重新组合二次项就可以了.
不动点 fixed points
点
x
∗
x^*
x∗最小化
f
f
f当且仅当:
x
∗
=
p
r
o
x
f
(
x
∗
)
x^* = \mathbf{prox}_f (x^*)
x∗=proxf(x∗)
这说明,
x
∗
x^*
x∗是
p
r
o
x
f
\mathbf{prox}_f
proxf的一个不动点,这个性质对于
λ
f
\lambda f
λf也是成立的.
压缩映射的定义:
考虑映射
T
:
(
X
,
ρ
)
→
(
X
,
ρ
)
T: (X, \rho) \rightarrow (X, \rho)
T:(X,ρ)→(X,ρ). 如果存在
0
<
a
<
1
0 < a < 1
0<a<1使得对任意的
x
,
y
∈
X
x, y \in X
x,y∈X有:
ρ
(
T
x
,
T
y
)
<
a
ρ
(
x
,
y
)
\rho (Tx, Ty) < a \rho(x, y)
ρ(Tx,Ty)<aρ(x,y)
则称函数
T
T
T是
(
X
,
ρ
)
(X, \rho)
(X,ρ)到自身的压缩映射.
如果
p
r
o
x
f
\mathbf{prox}_f
proxf是一个压缩映射,那么显然,如果我们想要找出最小化
f
f
f的
x
∗
x^*
x∗,可以用下式迭代:
x
n
+
1
=
p
r
o
x
f
(
x
n
)
→
x
∗
x^{n+1} = \mathbf{prox}_f(x^n) \rightarrow x^*
xn+1=proxf(xn)→x∗
比如
p
r
o
x
f
\mathbf{prox}_f
proxf满足
L
<
1
L<1
L<1的Lipschitz条件.
近端算子有这个性质:
这儿有关于这块内容的讨论.
x
=
p
r
o
x
f
(
v
)
⇔
v
−
x
∈
∂
f
(
x
)
x = \mathbf{prox}_f(v) \Leftrightarrow v-x \in \partial f(x)
x=proxf(v)⇔v−x∈∂f(x),其中
∂
\partial
∂表示次梯度.
设
u
1
=
p
r
o
x
f
(
x
)
,
u
2
=
p
r
o
x
f
(
y
)
u_1 = \mathbf{prox}_f(x), u_2 = \mathbf{prox}_f(y)
u1=proxf(x),u2=proxf(y),则:
x
−
u
1
∈
∂
f
(
u
1
)
y
−
u
2
∈
∂
f
(
u
2
)
x - u_1 \in \partial f(u_1) \\ y - u_2 \in \partial f(u_2)
x−u1∈∂f(u1)y−u2∈∂f(u2)
因为
f
f
f是凸函数,所以
∂
f
\partial f
∂f是单调增函数:
<
x
−
u
1
−
(
y
−
u
2
)
,
u
1
−
u
2
>
≥
0
⇒
∥
u
1
−
u
2
∥
2
2
≤
(
x
−
y
)
T
(
u
1
−
u
2
)
<x - u_1 - (y-u_2), u_1-u_2> \ge 0 \\ \Rightarrow \|u_1 - u_2\|_2^2 \le (x-y)^T(u_1-u_2)
<x−u1−(y−u2),u1−u2>≥0⇒∥u1−u2∥22≤(x−y)T(u1−u2)
上面的单调增函数,翻译的估计不对,主要是我对这方面的只是也不了解,原文用的是monotone mapping, 我们来看凸函数
f
(
x
)
f(x)
f(x):
f
(
y
)
≥
f
(
x
)
+
∂
f
(
x
)
T
(
y
−
x
)
f
(
x
)
≥
f
(
y
)
+
∂
f
(
y
)
T
(
x
−
y
)
f(y) \ge f(x) + \partial f(x)^T (y-x) \\ f(x) \ge f(y) + \partial f(y)^T(x-y)
f(y)≥f(x)+∂f(x)T(y−x)f(x)≥f(y)+∂f(y)T(x−y)
相加即得:
(
∂
f
(
x
)
−
∂
f
(
y
)
)
T
(
x
−
y
)
≥
0
(\partial f(x) - \partial f(y))^T (x-y) \ge 0
(∂f(x)−∂f(y))T(x−y)≥0
还有严格凸的情况下有个特殊情况,这个怎么证明啊…而且,似乎在不是严格凸的,利用上面的迭代公式也是能够收敛到不动点的,可似乎不满足不动点定理啊.
而且作者将这个与平均算子(averaged operators)联系起来:
T
=
(
1
−
α
)
I
+
α
N
,
α
∈
(
0
,
1
)
T = (1-\alpha)I+\alpha N, \alpha \in (0, 1)
T=(1−α)I+αN,α∈(0,1)
以及迭代公式:
x
k
+
1
:
=
(
1
−
α
)
x
k
+
α
N
x^{k+1}:=(1-\alpha ) x^k + \alpha N
xk+1:=(1−α)xk+αN
Moreau decomposition
有以下事实成立:
以下的证明是属于
沿用其符号,令(注意是
inf
\inf
inf不是
a
r
g
m
i
n
\mathrm{argmin}
argmin)
f
μ
(
x
)
=
inf
y
{
f
(
y
)
+
1
μ
∥
x
−
y
∥
2
2
}
f_{\mu}(x) = \inf_y \{f(y) + \frac{1}{\mu} \|x-y\|_2^2\}
fμ(x)=yinf{f(y)+μ1∥x−y∥22}
我们可以其改写为:
注意
−
sup
A
=
inf
−
A
-\sup A=\inf -A
−supA=inf−A
假设
f
f
f是凸函数且可微的,那么:
f
∗
(
y
)
=
x
∗
T
∇
f
(
x
∗
)
−
f
(
x
∗
)
f^*(y)={x^*}^T \nabla f(x^*) - f(x^*)
f∗(y)=x∗T∇f(x∗)−f(x∗)
其中,
x
x
x满足:
y
=
∇
f
(
x
∗
)
y=\nabla f(x^*)
y=∇f(x∗)。于是(注意
∇
f
(
x
∗
)
=
y
\nabla f(x^*)=y
∇f(x∗)=y, 且上式是关于
y
y
y求导):
∇
f
∗
(
y
)
=
x
∗
\nabla f^* (y) = x^*
∇f∗(y)=x∗
这就是
∇
f
μ
(
x
)
\nabla f_{\mu} (x)
∇fμ(x)的由来.
我们再来看其对偶表示:
其拉格朗日对偶表示为:
如果满足强对偶条件:
所以:
f
μ
(
x
)
=
1
2
μ
∥
x
∥
2
−
1
μ
(
μ
f
+
1
2
∥
⋅
∥
2
)
∗
(
x
)
=
(
f
∗
+
μ
2
∥
⋅
∥
2
)
∗
(
x
)
⇒
1
2
∥
x
∥
2
=
(
μ
f
+
1
2
∥
⋅
∥
2
)
∗
(
x
)
+
μ
(
f
∗
+
μ
2
∥
⋅
∥
2
)
∗
(
x
)
⇒
x
=
p
r
o
x
μ
f
(
x
)
+
μ
p
r
o
x
1
μ
f
∗
(
x
μ
)
=
x
=
p
r
o
x
μ
f
(
x
)
+
p
r
o
x
(
μ
f
)
∗
(
x
)
f_{\mu}(x) = \frac{1}{2 \mu} \|x\|^2-\frac{1}{\mu}(\mu f+\frac{1}{2}\|\cdot\|^2)^*(x) =(f^* + \frac{\mu}{2} \|\cdot\|^2)^*(x) \\ \Rightarrow \frac{1}{2}\|x\|^2= ( \mu f + \frac{1}{2}\|\cdot\|^2)^*(x)+\mu (f^*+\frac{\mu}{2}\|\cdot\|^2)^*(x) \\ \Rightarrow x= \mathbf{prox}_{\mu f}(x) + \mu\mathbf{prox}_{\frac{1}{\mu}f^*}(\frac{x}{\mu})=x = \mathbf{prox}_{\mu f}(x) + \mathbf{prox}_{(\mu f)^*}(x)
fμ(x)=2μ1∥x∥2−μ1(μf+21∥⋅∥2)∗(x)=(f∗+2μ∥⋅∥2)∗(x)⇒21∥x∥2=(μf+21∥⋅∥2)∗(x)+μ(f∗+2μ∥⋅∥2)∗(x)⇒x=proxμf(x)+μproxμ1f∗(μx)=x=proxμf(x)+prox(μf)∗(x)
最后一步的结果通过对上式俩边求导得到的,不知道对不对,但是
μ
=
1
\mu=1
μ=1的时候,下式是一定成立的:
x
=
p
r
o
x
f
(
x
)
+
p
r
o
x
f
∗
(
x
)
x = \mathbf{prox}_f(x) + \mathbf{prox}_{f^*}(x)
x=proxf(x)+proxf∗(x)