Proximal Algorithms 2 Properties

本文深入探讨了近端算子的性质及其在不动点理论中的应用,包括基本运算、可分和函数的近端算子计算,以及如何通过不动点迭代找到函数最小化点。同时,文章还介绍了压缩映射的概念以及近端算子与平均算子之间的联系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Proximal Algorithms

可分和

如果 f f f可分为俩个变量: f ( x , y ) = φ ( x ) + ψ ( y ) f(x, y)=\varphi(x) + \psi(y) f(x,y)=φ(x)+ψ(y), 于是:
在这里插入图片描述
如果 f f f是完全可分的,即 f ( x ) = ∑ i = 1 n f i ( x i ) f(x) = \sum_{i=1}^n f_i (x_i) f(x)=i=1nfi(xi):
( p r o x f ( v ) ) i = p r o x f i ( v i ) (\mathbf{prox}_f(v))_i = \mathbf{prox}_{f_i}(v_i) (proxf(v))i=proxfi(vi)

这个性质在并行算法的设计中非常有用。

基本的运算

如果 f ( x ) = α φ ( x ) + b f(x) = \alpha \varphi (x) + b f(x)=αφ(x)+b, α > 0 \alpha > 0 α>0:
p r o x λ f ( v ) = p r o x α λ φ ( v ) \mathbf{prox}_{\lambda f} (v) = \mathbf{prox}_{\alpha \lambda \varphi} (v) proxλf(v)=proxαλφ(v)

如果 f ( x ) = φ ( α x + b ) f(x) = \varphi (\alpha x +b) f(x)=φ(αx+b), α ≠ 0 \alpha \ne 0 α̸=0:
在这里插入图片描述
证:
p r o x λ f ( v ) = a r g m i n x φ ( α x + b ) + 1 2 λ ∥ x − v ∥ 2 2 = a r g m i n x φ ( z ) + 1 2 λ ∥ ( z − b ) / α − v ∥ 2 2 = a r g m i n x φ ( z ) + 1 2 λ α 2 ∥ z − b − α v ∥ 2 2 = 1 α ( p r o x α 2 λ φ ( α v + b ) − b ) \begin{array}{ll} \mathbf{prox}_{\lambda f}(v) &= \mathrm{argmin}_x \varphi(\alpha x+b) +\frac{1}{2\lambda}\|x-v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(z) + \frac{1}{2\lambda}\|(z-b)/\alpha -v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(z) + \frac{1}{2\lambda \alpha^2}\|z-b -\alpha v\|_2^2 \\ &= \frac{1}{\alpha} (\mathbf{prox}_{\alpha^2 \lambda \varphi}(\alpha v + b) - b) \end{array} proxλf(v)=argminxφ(αx+b)+2λ1xv22=argminxφ(z)+2λ1(zb)/αv22=argminxφ(z)+2λα21zbαv22=α1(proxα2λφ(αv+b)b)
其中 z = α x + b z=\alpha x+b z=αx+b,证毕.
如果 f ( x ) = φ ( Q x ) f(x) = \varphi(Qx) f(x)=φ(Qx),且 Q Q Q为正交矩阵:
p r o x λ f ( v ) = Q T p r o x λ φ ( Q v ) \mathbf{prox}_{\lambda f} (v) = Q^T \mathbf{prox}_{\lambda \varphi}(Qv) proxλf(v)=QTproxλφ(Qv)

如果 f ( x ) = φ ( x ) + a T x + b f(x) = \varphi(x) + a^Tx + b f(x)=φ(x)+aTx+b,则:
p r o x λ f ( v ) = p r o x λ φ ( v − λ a ) \mathbf{prox}_{\lambda f}(v) = \mathbf{prox}_{\lambda \varphi} (v-\lambda a) proxλf(v)=proxλφ(vλa)
证:
p r o x λ f ( v ) = a r g m i n x φ ( x ) + a T x + b + 1 2 λ ∥ x − v ∥ 2 2 = a r g m i n x φ ( x ) + 1 2 λ ( x T x − 2 v T x + 2 λ a T x ) + c = a r g m i n x φ ( x ) + 1 2 λ ∥ x − ( v − λ a ) ∥ 2 2 = p r o x λ φ ( v − λ a ) \begin{array}{ll} \mathbf{prox}_{\lambda f}(v) &= \mathrm{argmin}_x \varphi (x) + a^Tx + b + \frac{1}{2\lambda} \|x-v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(x) +\frac{1}{2 \lambda} (x^Tx -2v^Tx+2\lambda a^Tx)+c \\ &= \mathrm{argmin}_x \varphi(x) + \frac{1}{2 \lambda} \|x-(v-\lambda a)\|_2^2 \\ &= \mathbf{prox}_{\lambda \varphi}(v-\lambda a) \end{array} proxλf(v)=argminxφ(x)+aTx+b+2λ1xv22=argminxφ(x)+2λ1(xTx2vTx+2λaTx)+c=argminxφ(x)+2λ1x(vλa)22=proxλφ(vλa)
其中 c c c为与 x x x无关的项.

如果 f ( x ) = φ ( x ) + ( ρ / 2 ) ∥ x − a ∥ 2 2 f(x) = \varphi(x) + (\rho/2) \|x -a \|_2^2 f(x)=φ(x)+(ρ/2)xa22, 则:
p r o x λ f ( v ) = p r o x λ ~ φ ( ( λ ~ / λ ) v + ( ρ λ ~ ) a ) \mathbf{prox}_{\lambda f} (v) = \mathbf{prox}_{\widetilde{\lambda}\varphi}\big((\widetilde{\lambda}/\lambda)v + (\rho \widetilde{\lambda})a \big) proxλf(v)=proxλ φ((λ /λ)v+(ρλ )a)
其中 λ ~ = λ / ( 1 + λ ρ ) \widetilde{\lambda} = \lambda / (1+\lambda \rho) λ =λ/(1+λρ),证明方法和上面是类似的,重新组合二次项就可以了.

不动点 fixed points

x ∗ x^* x最小化 f f f当且仅当:
x ∗ = p r o x f ( x ∗ ) x^* = \mathbf{prox}_f (x^*) x=proxf(x)
这说明, x ∗ x^* x p r o x f \mathbf{prox}_f proxf的一个不动点,这个性质对于 λ f \lambda f λf也是成立的.

在这里插入图片描述
压缩映射的定义:
考虑映射 T : ( X , ρ ) → ( X , ρ ) T: (X, \rho) \rightarrow (X, \rho) T:(X,ρ)(X,ρ). 如果存在 0 &lt; a &lt; 1 0 &lt; a &lt; 1 0<a<1使得对任意的 x , y ∈ X x, y \in X x,yX有:
ρ ( T x , T y ) &lt; a ρ ( x , y ) \rho (Tx, Ty) &lt; a \rho(x, y) ρ(Tx,Ty)<aρ(x,y)
则称函数 T T T ( X , ρ ) (X, \rho) (X,ρ)到自身的压缩映射.

如果 p r o x f \mathbf{prox}_f proxf是一个压缩映射,那么显然,如果我们想要找出最小化 f f f x ∗ x^* x,可以用下式迭代:
x n + 1 = p r o x f ( x n ) → x ∗ x^{n+1} = \mathbf{prox}_f(x^n) \rightarrow x^* xn+1=proxf(xn)x
比如 p r o x f \mathbf{prox}_f proxf满足 L &lt; 1 L&lt;1 L<1的Lipschitz条件.

近端算子有这个性质:
在这里插入图片描述
这儿有关于这块内容的讨论.

x = p r o x f ( v ) ⇔ v − x ∈ ∂ f ( x ) x = \mathbf{prox}_f(v) \Leftrightarrow v-x \in \partial f(x) x=proxf(v)vxf(x),其中 ∂ \partial 表示次梯度.
u 1 = p r o x f ( x ) , u 2 = p r o x f ( y ) u_1 = \mathbf{prox}_f(x), u_2 = \mathbf{prox}_f(y) u1=proxf(x),u2=proxf(y),则:
x − u 1 ∈ ∂ f ( u 1 ) y − u 2 ∈ ∂ f ( u 2 ) x - u_1 \in \partial f(u_1) \\ y - u_2 \in \partial f(u_2) xu1f(u1)yu2f(u2)
因为 f f f是凸函数,所以 ∂ f \partial f f是单调增函数:
&lt; x − u 1 − ( y − u 2 ) , u 1 − u 2 &gt; ≥ 0 ⇒ ∥ u 1 − u 2 ∥ 2 2 ≤ ( x − y ) T ( u 1 − u 2 ) &lt;x - u_1 - (y-u_2), u_1-u_2&gt; \ge 0 \\ \Rightarrow \|u_1 - u_2\|_2^2 \le (x-y)^T(u_1-u_2) <xu1(yu2),u1u2>0u1u222(xy)T(u1u2)
上面的单调增函数,翻译的估计不对,主要是我对这方面的只是也不了解,原文用的是monotone mapping, 我们来看凸函数 f ( x ) f(x) f(x):
f ( y ) ≥ f ( x ) + ∂ f ( x ) T ( y − x ) f ( x ) ≥ f ( y ) + ∂ f ( y ) T ( x − y ) f(y) \ge f(x) + \partial f(x)^T (y-x) \\ f(x) \ge f(y) + \partial f(y)^T(x-y) f(y)f(x)+f(x)T(yx)f(x)f(y)+f(y)T(xy)
相加即得:
( ∂ f ( x ) − ∂ f ( y ) ) T ( x − y ) ≥ 0 (\partial f(x) - \partial f(y))^T (x-y) \ge 0 (f(x)f(y))T(xy)0
还有严格凸的情况下有个特殊情况,这个怎么证明啊…而且,似乎在不是严格凸的,利用上面的迭代公式也是能够收敛到不动点的,可似乎不满足不动点定理啊.

而且作者将这个与平均算子(averaged operators)联系起来:
T = ( 1 − α ) I + α N , α ∈ ( 0 , 1 ) T = (1-\alpha)I+\alpha N, \alpha \in (0, 1) T=(1α)I+αN,α(0,1)
以及迭代公式:
x k + 1 : = ( 1 − α ) x k + α N x^{k+1}:=(1-\alpha ) x^k + \alpha N xk+1:=(1α)xk+αN

Moreau decomposition

有以下事实成立:
在这里插入图片描述

以下的证明是属于
在这里插入图片描述
沿用其符号,令(注意是 inf ⁡ \inf inf不是 a r g m i n \mathrm{argmin} argmin
f μ ( x ) = inf ⁡ y { f ( y ) + 1 μ ∥ x − y ∥ 2 2 } f_{\mu}(x) = \inf_y \{f(y) + \frac{1}{\mu} \|x-y\|_2^2\} fμ(x)=yinf{f(y)+μ1xy22}
我们可以其改写为:
在这里插入图片描述
注意 − sup ⁡ A = inf ⁡ − A -\sup A=\inf -A supA=infA
假设 f f f是凸函数且可微的,那么:
f ∗ ( y ) = x ∗ T ∇ f ( x ∗ ) − f ( x ∗ ) f^*(y)={x^*}^T \nabla f(x^*) - f(x^*) f(y)=xTf(x)f(x)
其中, x x x满足: y = ∇ f ( x ∗ ) y=\nabla f(x^*) y=f(x)。于是(注意 ∇ f ( x ∗ ) = y \nabla f(x^*)=y f(x)=y, 且上式是关于 y y y求导):
∇ f ∗ ( y ) = x ∗ \nabla f^* (y) = x^* f(y)=x
这就是 ∇ f μ ( x ) \nabla f_{\mu} (x) fμ(x)的由来.

我们再来看其对偶表示:
在这里插入图片描述
其拉格朗日对偶表示为:
在这里插入图片描述
如果满足强对偶条件:
在这里插入图片描述

所以:
f μ ( x ) = 1 2 μ ∥ x ∥ 2 − 1 μ ( μ f + 1 2 ∥ ⋅ ∥ 2 ) ∗ ( x ) = ( f ∗ + μ 2 ∥ ⋅ ∥ 2 ) ∗ ( x ) ⇒ 1 2 ∥ x ∥ 2 = ( μ f + 1 2 ∥ ⋅ ∥ 2 ) ∗ ( x ) + μ ( f ∗ + μ 2 ∥ ⋅ ∥ 2 ) ∗ ( x ) ⇒ x = p r o x μ f ( x ) + μ p r o x 1 μ f ∗ ( x μ ) = x = p r o x μ f ( x ) + p r o x ( μ f ) ∗ ( x ) f_{\mu}(x) = \frac{1}{2 \mu} \|x\|^2-\frac{1}{\mu}(\mu f+\frac{1}{2}\|\cdot\|^2)^*(x) =(f^* + \frac{\mu}{2} \|\cdot\|^2)^*(x) \\ \Rightarrow \frac{1}{2}\|x\|^2= ( \mu f + \frac{1}{2}\|\cdot\|^2)^*(x)+\mu (f^*+\frac{\mu}{2}\|\cdot\|^2)^*(x) \\ \Rightarrow x= \mathbf{prox}_{\mu f}(x) + \mu\mathbf{prox}_{\frac{1}{\mu}f^*}(\frac{x}{\mu})=x = \mathbf{prox}_{\mu f}(x) + \mathbf{prox}_{(\mu f)^*}(x) fμ(x)=2μ1x2μ1(μf+212)(x)=(f+2μ2)(x)21x2=(μf+212)(x)+μ(f+2μ2)(x)x=proxμf(x)+μproxμ1f(μx)=x=proxμf(x)+prox(μf)(x)
最后一步的结果通过对上式俩边求导得到的,不知道对不对,但是 μ = 1 \mu=1 μ=1的时候,下式是一定成立的:
x = p r o x f ( x ) + p r o x f ∗ ( x ) x = \mathbf{prox}_f(x) + \mathbf{prox}_{f^*}(x) x=proxf(x)+proxf(x)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值