优化中的subgradient方法

最新推荐文章于 2024-06-17 09:32:20 发布

转载最新推荐文章于 2024-06-17 09:32:20 发布 · 826 阅读

Machine Learning 同时被 2 个专栏收录

208 篇文章

订阅专栏

Basis

36 篇文章

订阅专栏

 版权声明：本文为博主原创文章，未经博主允许不得转载。

目录(?)[+]

哎，刚刚submit上paper比较心虚啊，无心学习，还是好好码码文字吧。

subgradient介绍

subgradient中文名叫次梯度，和梯度一样，完全可以多放梯度使用，至于为什么叫子梯度，是因为有一些凸函数是不可导的，没法用梯度，所以subgradient就在这里使用了。注意到，子梯度也是求解凸函数的，只是凸函数不是处处可导。

f:X→R 是一个凸函数， X∈Rn 是一个凸集。
若是f在 x′ 处 ∇f(x′) 可导，考虑一阶泰勒展开式：

f (x) \geq f (x') + \nabla (f (x') T (x - x'), \forall x \in X

能够得到

f(x) 的一个下届（f(x)是一个凸函数）
若是

f(x) 在

x′ 处不可导，仍然，可以得到一个

f(x) 的下届

f (x) \geq f (x') + g T (x - x'), \forall x \in X

这个

g 就叫做

f(x) 的子梯度，

g∈Rn
很明显，在一个点会有不止一个次梯度，在点

x 所有

f(x) 的次梯度集合叫做此微分

∂f(x)

我们可以看出，当

f(x) 是凸集并且在

x 附近有界时，

∂f(x) 是非空的，并且

∂f(x) 是一个闭凸集。

次梯度性质

\partial f (x) = {g} \Leftrightarrow f (x) 可 微 并 且 g = \nabla f (x)

满足：
1）scaling：

\partial (α f (x)) = α \partial f (x), i f α > 0

2）addition：

\partial (f 1 (x) + f 2 (x)) = \partial f z (x) + \partial f 2 (x)

3）point-wise maximum:

f(x)=maxi=1,...,mfi(x) 并且

fi(x) 是可微的，那么：

\partial f (x) = C o {\nabla f i (x) ∣ f i (x) = f (x)}

即所有该点函数值等于最大值的函数的梯度的凸包。
在非约束最优化问题中，要求解一个凸函数

f:Rn→R 的最小值

x * \in a r g m i n x \in R n f (x)

很显然，若是f可导，那么我们只需要求解导数为0的点

f (x * = m i n x \in R n \Leftrightarrow 0 = \nabla f (x *)

当f不可导的时候，上述条件就可以一般化成

f (x *) = m i n x \in R n \Leftrightarrow 0 \in \nabla f (x *)

也即

0 满足次梯度的定义

f (x) \geq f (x') + 0 T (x - x'), \forall x \in R n

下面是次梯度法的一般方法：

1. t=1 选择有限的正的迭代步长 {αt}∞t=1
2.计算一个次梯度 g∈∂f(xt)
3.更新 xt+1=xt−αtgt
4.若是算法没有收敛，则 t=t+1 返回第二步继续计算

次梯度方法性质：

1.简单通用性：就是说第二步中， ∂f(xt) 任何一个次梯度都是可以的.
2.收敛性：只要选择的步长合适，总会收敛的
3.收敛慢：需要大量的迭代才能收敛
4.非单调收敛： −gt 不需要是下降方向，在这种情况下，不能使用线性搜索选择合适的 αt
5.没有很好的停止准则

对于不同步长的序列的收敛结果

不妨设 ftbest=min{f(x1),..,f(xt)} 是t次迭代中的最优结果
1.步长和不可消时（Non-summable diminishing step size）：
limt→∞αt=0 并且 ∑∞t=1αt==∞
这种情况能够收敛到最优解： limt→∞ftbest−f(x∗)=0
2.Constant step size:
αt=γ,where γ>0
收敛到次优解： limt→∞ftbest−f(x∗)≤αG2/2
3.Constant step length:
αt=γ||gt|| (i.e. ||xt+1−xt||=γ )， ||g||≤G,∀g∈∂f
能够收敛到次优解 limt→∞ftbest−f(x∗)≤γG/2
4.Polyak’s rule: αt=f(xt)−f(x∗)||gt||2
若是最优值 f(x∗) 可知则可以用这种方法。