文章目录
这一节,作者总结了一些关于proximal的一些直观解释
Moreau-Yosida regularization
内部卷积(infimal convolution):
(
f
 
□
 
g
)
(
v
)
=
inf
x
(
f
(
x
)
+
g
(
v
−
x
)
)
(f \: \Box \: g)(v)=\inf_x (f(x)+g(v-x))
(f□g)(v)=xinf(f(x)+g(v−x))
Moreau-Yosida envelope 或者 Moreau-Yosida regularization 为:
M
λ
f
=
λ
f
 
□
 
(
1
/
2
)
∥
⋅
∥
2
2
M_{\lambda f}=\lambda f \: \Box \: (1/2)\|\cdot\|_2^2
Mλf=λf□(1/2)∥⋅∥22, 于是:
事实上,这就是,我们在上一节提到过的东西。就像在上一节一样,可以证明:
M
f
(
x
)
=
f
(
p
r
o
x
(
x
)
)
+
(
1
/
2
)
∥
x
−
p
r
o
x
f
(
x
)
∥
2
2
M_f (x) = f(\mathbf{prox}(x)) + (1/2) \|x-\mathbf{prox}_f(x)\|_2^2
Mf(x)=f(prox(x))+(1/2)∥x−proxf(x)∥22
以及:
∇
M
λ
f
(
x
)
=
(
1
/
λ
)
(
x
−
p
r
o
x
λ
f
(
x
)
)
\nabla M_{\lambda_f}(x) = (1 / \lambda)(x- \mathbf{prox}_{\lambda f}(x))
∇Mλf(x)=(1/λ)(x−proxλf(x))
虽然上面的我不知道在
f
f
f不可微的条件下怎么证明.
于是有与上一节同样的结果:
总结一下就是,近端算子,实际上就是最小化
M
λ
f
M_{\lambda f}
Mλf, 等价于
∇
M
f
∗
\nabla M_{f^*}
∇Mf∗,即:
p
r
o
x
f
(
x
)
=
∇
M
f
∗
(
x
)
\mathbf{prox}_f(x) = \nabla M_{f^*} (x)
proxf(x)=∇Mf∗(x)
这个,需要通过Moreau分解得到.
与次梯度的联系 p r o x λ f = ( I + λ ∂ f ) − 1 \mathbf{prox}_{\lambda f} = (I + \lambda \partial f)^{-1} proxλf=(I+λ∂f)−1
上面的式子,有一个问题是,这个映射是单值函数吗(论文里也讲,用关系来讲更合适),因为
∂
f
\partial f
∂f的原因,不过,论文的意思好像是的,不过这并不影响证明:
改进的梯度路径
就像在第一节说的,和之前有关Moreau envelope表示里讲的:
p
r
o
x
λ
f
(
x
)
=
x
−
λ
∇
M
λ
f
(
x
)
\mathbf{prox}_{\lambda f} (x) = x - \lambda \nabla M_{\lambda f}(x)
proxλf(x)=x−λ∇Mλf(x)
实际上,
p
r
o
x
λ
f
\mathbf{prox}_{\lambda f}
proxλf可以视为最小化Moreau envelope的一个迭代路径,其步长为
λ
\lambda
λ. 还有一些相似的解释.
假设
f
f
f是二阶可微的,且
∇
2
f
(
x
)
≻
0
\nabla^2 f(x) \succ0
∇2f(x)≻0(表正定),当
λ
→
0
\lambda \rightarrow 0
λ→0:
p
r
o
x
λ
f
(
x
)
=
(
I
+
λ
∇
f
)
−
1
(
x
)
=
x
−
λ
∇
f
(
x
)
+
o
(
λ
)
\mathbf{prox}_{\lambda f} (x) = (I + \lambda \nabla f)^{-1} (x) = x - \lambda \nabla f(x)+o(\lambda)
proxλf(x)=(I+λ∇f)−1(x)=x−λ∇f(x)+o(λ)
这个的证明,我觉得是用到了变分学的知识:
δ
(
I
+
λ
∇
f
)
−
1
∣
λ
=
0
=
−
∇
f
(
I
+
λ
∇
f
)
−
2
∣
λ
=
0
=
−
∇
f
\delta(I+\lambda \nabla f)^{-1}|_{\lambda=0}=-\frac{\nabla f}{(I+\lambda \nabla f)^{-2}}|_{\lambda =0}= -\nabla f
δ(I+λ∇f)−1∣λ=0=−(I+λ∇f)−2∇f∣λ=0=−∇f
所以上面的是一阶距离的刻画.
我们先来看 f f f的一阶泰勒近似:
其近端算子为:
感觉,实际上是为:
p
r
o
x
λ
f
^
v
(
1
)
\mathbf{prox}_{\lambda \hat{f}_v^{(1)}}
proxλf^v(1)
相应的,还有二阶近似:
这个是Levenberg-Marquardt update的牛顿方法,虽然我不知道这玩意儿是什么.
上面的证明都是容易的,直接更具定义便能导出.
信赖域问题
proximal还可以用信赖域问题来解释:
而普通的proximal问题:
约束条件变成了惩罚项, 论文还指出,通过指定不同的参数
ρ
\rho
ρ和
λ
\lambda
λ,俩个问题能互相达到对方的解.