Proximal Algorithms 3 Interpretation

本文探讨了Moreau-Yosida正则化与次梯度的关系,解析了近端算子在最小化Moreau-Yosida包络中的作用,以及与信赖域问题的联系。通过近端算子与梯度路径的改进,展示了在不同条件下优化路径的逼近,并讨论了在二阶可微条件下的近似性质。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Proximal Algorithms

这一节,作者总结了一些关于proximal的一些直观解释

Moreau-Yosida regularization

内部卷积(infimal convolution):
( f   □   g ) ( v ) = inf ⁡ x ( f ( x ) + g ( v − x ) ) (f \: \Box \: g)(v)=\inf_x (f(x)+g(v-x)) (fg)(v)=xinf(f(x)+g(vx))

Moreau-Yosida envelope 或者 Moreau-Yosida regularization 为:
M λ f = λ f   □   ( 1 / 2 ) ∥ ⋅ ∥ 2 2 M_{\lambda f}=\lambda f \: \Box \: (1/2)\|\cdot\|_2^2 Mλf=λf(1/2)22, 于是:
在这里插入图片描述
事实上,这就是,我们在上一节提到过的东西。就像在上一节一样,可以证明:
M f ( x ) = f ( p r o x ( x ) ) + ( 1 / 2 ) ∥ x − p r o x f ( x ) ∥ 2 2 M_f (x) = f(\mathbf{prox}(x)) + (1/2) \|x-\mathbf{prox}_f(x)\|_2^2 Mf(x)=f(prox(x))+(1/2)xproxf(x)22
以及:
∇ M λ f ( x ) = ( 1 / λ ) ( x − p r o x λ f ( x ) ) \nabla M_{\lambda_f}(x) = (1 / \lambda)(x- \mathbf{prox}_{\lambda f}(x)) Mλf(x)=(1/λ)(xproxλf(x))
虽然上面的我不知道在 f f f不可微的条件下怎么证明.
于是有与上一节同样的结果:
在这里插入图片描述
总结一下就是,近端算子,实际上就是最小化 M λ f M_{\lambda f} Mλf, 等价于 ∇ M f ∗ \nabla M_{f^*} Mf,即:
p r o x f ( x ) = ∇ M f ∗ ( x ) \mathbf{prox}_f(x) = \nabla M_{f^*} (x) proxf(x)=Mf(x)
这个,需要通过Moreau分解得到.

与次梯度的联系 p r o x λ f = ( I + λ ∂ f ) − 1 \mathbf{prox}_{\lambda f} = (I + \lambda \partial f)^{-1} proxλf=(I+λf)1

在这里插入图片描述
上面的式子,有一个问题是,这个映射是单值函数吗(论文里也讲,用关系来讲更合适),因为 ∂ f \partial f f的原因,不过,论文的意思好像是的,不过这并不影响证明:
在这里插入图片描述

改进的梯度路径

就像在第一节说的,和之前有关Moreau envelope表示里讲的:
p r o x λ f ( x ) = x − λ ∇ M λ f ( x ) \mathbf{prox}_{\lambda f} (x) = x - \lambda \nabla M_{\lambda f}(x) proxλf(x)=xλMλf(x)
实际上, p r o x λ f \mathbf{prox}_{\lambda f} proxλf可以视为最小化Moreau envelope的一个迭代路径,其步长为 λ \lambda λ. 还有一些相似的解释.
假设 f f f是二阶可微的,且 ∇ 2 f ( x ) ≻ 0 \nabla^2 f(x) \succ0 2f(x)0(表正定),当 λ → 0 \lambda \rightarrow 0 λ0:
p r o x λ f ( x ) = ( I + λ ∇ f ) − 1 ( x ) = x − λ ∇ f ( x ) + o ( λ ) \mathbf{prox}_{\lambda f} (x) = (I + \lambda \nabla f)^{-1} (x) = x - \lambda \nabla f(x)+o(\lambda) proxλf(x)=(I+λf)1(x)=xλf(x)+o(λ)
这个的证明,我觉得是用到了变分学的知识:
δ ( I + λ ∇ f ) − 1 ∣ λ = 0 = − ∇ f ( I + λ ∇ f ) − 2 ∣ λ = 0 = − ∇ f \delta(I+\lambda \nabla f)^{-1}|_{\lambda=0}=-\frac{\nabla f}{(I+\lambda \nabla f)^{-2}}|_{\lambda =0}= -\nabla f δ(I+λf)1λ=0=(I+λf)2fλ=0=f
所以上面的是一阶距离的刻画.

我们先来看 f f f的一阶泰勒近似:

在这里插入图片描述
其近端算子为:
在这里插入图片描述
感觉,实际上是为: p r o x λ f ^ v ( 1 ) \mathbf{prox}_{\lambda \hat{f}_v^{(1)}} proxλf^v(1)

相应的,还有二阶近似:
在这里插入图片描述
在这里插入图片描述

这个是Levenberg-Marquardt update的牛顿方法,虽然我不知道这玩意儿是什么.

上面的证明都是容易的,直接更具定义便能导出.

信赖域问题

proximal还可以用信赖域问题来解释:

在这里插入图片描述
而普通的proximal问题:
在这里插入图片描述
约束条件变成了惩罚项, 论文还指出,通过指定不同的参数 ρ \rho ρ λ \lambda λ,俩个问题能互相达到对方的解.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值