(最优化理论与方法)第二章最优化所需基础知识-第八节:次梯度

本文详细介绍了次梯度的概念及其在凸函数中的应用。包括次梯度的存在性、性质及计算规则等内容,并通过实例帮助理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:次梯度的定义

次梯度定义:设 f f f为适当凸函数 x x x为定义域 d o m f dom f domf中的一点,若向量 g ∈ R n g\in R^{n} gRn,满足

f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f f(y)\geq f(x)+g^{T}(y-x),\quad \forall y\in domf f(y)f(x)+gT(yx),ydomf

则称 g g g为函数 f f f在点 x x x的一个次梯度。进一步地,称集合

∂ f ( x ) = { g ∣ g ∈ R n , f ( y ) ≥ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f } \partial f(x)=\{g|g\in R^{n},f(y)\geq f(x)+g^{T}(y-x),\quad \forall y\in domf\} f(x)={ggRn,f(y)f(x)+gT(yx),ydomf}

f f f在点 x x x处的次微分

如下图

  • g 1 g_{1} g1是点 x 1 x_{1} x1处的次梯度
  • g 2 g_{2} g2 g 3 g_{3} g3是点 x 2 x_{2} x2的次梯度
    在这里插入图片描述

实际上,次梯度实际上借鉴了凸函数判定定理的一阶条件。所以定义次梯度的初衷之一也是希望它具有类似于梯度的一些性质

  • 一阶条件:对于定义在凸集上的可微函数 f f f f f f为凸函数当前仅当 f ( y ) ≥ f ( x ) + ∇ f ( x ) T ( y − x ) ∀ x , y ∈ d o m f f(y)\geq f(x)+\nabla f(x)^{T}(y-x) \quad \forall x,y\in domf f(y)f(x)+f(x)T(yx)x,ydomf

另外,从次梯度的定义可直接推出,若 g g g f ( x ) f(x) f(x) x 0 x_{0} x0处的次梯度,则函数

l ( x ) = f ( x 0 ) + g T ( x − x 0 ) l(x)=f(x_{0})+g^{T}(x-x_{0}) l(x)=f(x0)+gT(xx0)

为凸函数 f ( x ) f(x) f(x)的一个全局下界。此外,次梯度 g g g可以诱导出上方图 e p i f epif epif在点 ( x , f ( x ) ) (x, f(x)) (x,f(x))处的一个支撑超平面

  • 容易验证,对 e p i f epi f epif中的任意点 ( y , t ) (y, t) (y,t),有:
    在这里插入图片描述

二:次梯度存在性

次梯度存在性:设 f f f为凸函数, d o m f dom f domf为其定义域。如果 x ∈ i n t d o m f x\in int domf xintdomf,则 ∂ f ( x ) \partial f(x) f(x)是非空的。其中 i n t d o m f int domf intdomf的含义时集合 d o m f dom f domf的所有内点

证明:考虑 f ( x ) f(x) f(x)的上方图 e p i f epi f epif,由于 ( x , f ( x ) ) (x, f(x)) (x,f(x)) e p i f epi f epif边界上的点,且 e p i f epi f epif为凸集,根据支撑超平面定理,存在 a ∈ R n , b ∈ R a\in R^{n},b\in R aRn,bR使得

在这里插入图片描述

也即

a T ( y − x ) ≤ b ( f ( x ) − t ) a^{T}(y-x)\leq b(f(x)-t) aT(yx)b(f(x)t)

t → ∞ t\rightarrow \infty t,可知上式成立的必要条件 b ≤ 0 b\leq0 b0,同时由于 x x x是内点,因此当取 y = x + ξ a ∈ d o m f y=x+\xi a\in dom f y=x+ξadomf, ξ > 0 \xi>0 ξ>0时, b = 0 b=0 b=0不能使得上式成立。于是令 g = − a b g=-\frac{a}{b} g=ba,则对任意 y ∈ d o m f y\in domf ydomf,有

g T ( y − x ) = a T ( y − x ) − b ≤ − ( f ( x ) − f ( y ) ) g^{T}(y-x)=\frac{a^{T}(y-x)}{-b}\leq-(f(x)-f(y)) gT(yx)=baT(yx)(f(x)f(y))

f ( y ) ≥ f ( x ) + g T ( y − x ) f(y)\geq f(x)+g^{T}(y-x) f(y)f(x)+gT(yx)

这说明 g g g f f f在点 x x x处的次梯度

例子

f ( x ) = m a x { f 1 ( x ) , f 2 ( x ) } f(x)=max\{f_{1}(x), f_{2}(x)\} f(x)=max{f1(x),f2(x)}, f 1 f_{1} f1 f 2 f_{2} f2是可微凸函数

  • 在这里插入图片描述

:绝对值函数 f ( x ) = ∣ x ∣ f(x)=|x| f(x)=x

在这里插入图片描述

:欧几里得范数 f ( x ) = ∣ ∣ x ∣ ∣ 2 f(x)=||x||_{2} f(x)=∣∣x2

在这里插入图片描述

三:次梯度的性质

次梯度的性质:设 f f f是凸函数,则 ∂ f ( x ) \partial f(x) f(x)有如下性质

  • 次微分是凸集:对于任何 x ∈ d o m f x\in domf xdomf ∂ f ( x ) \partial f(x) f(x)是一个闭凸集(可能为空集)
  • 内点的次微分非空有界:对于任何 x ∈ d o m f x\in domf xdomf ∂ f ( x ) \partial f(x) f(x)非空有界集
  • 可微函数次微分:设凸函数 f ( x ) f(x) f(x) x 0 ∈ i n t d o m f x_{0}\in int domf x0intdomf处可微,则 ∂ f ( x 0 ) = { ∇ f ( x 0 ) } \partial f(x_{0})=\{\nabla f(x_{0})\} f(x0)={f(x0)}
  • 次梯度单调性:设 f : R n → R f:R^{n}\rightarrow R f:RnR为凸函数, x , y ∈ d o m f x,y\in domf x,ydomf,则 ( u − v ) T ( x − y ) ≥ 0 (u-v)^{T}(x-y)\geq 0 (uv)T(xy)0,其中 u ∈ ∂ f ( x ) , v ∈ ∂ f ( y ) u\in\partial f(x),v\in\partial f(y) uf(x),vf(y)
  • 次梯度连续性:设 f ( x ) f(x) f(x)是闭凸函数且 ∂ f \partial f f在点 x ˉ \bar{x} xˉ附近存在且非空。若序列 x k → x ˉ x^{k} \rightarrow \bar{x} xkxˉ g k ∈ ∂ f ( x k ) g^{k}\in\partial f(x^{k}) gkf(xk)在点 x k x^{k} xk处的次梯度,且 g k → g ˉ g^{k}\rightarrow \bar{g} gkgˉ,则 g ˉ ∈ ∂ f ( x ˉ ) \bar{g}\in\partial f(\bar{x}) gˉf(xˉ)

四:凸函数的方向导数

在数学分析中,方向导数被定义为:设 f f f为适当函数,给定点 x 0 x_{0} x0以及方向 d ∈ R n d\in R^{n} dRn,方向导数(若存在)定义为

l i m t ↓ 0 ϕ ( t ) = l i m t ↓ 0 f ( x 0 + t d ) − f ( x 0 ) t \mathop{lim}\limits_{t \downarrow 0}\phi (t)=\mathop{lim}\limits_{t \downarrow 0}\frac{f(x_{0}+td)-f(x_{0})}{t} t0limϕ(t)=t0limtf(x0+td)f(x0)

其中 t ↓ 0 t \downarrow 0 t0表示 t t t单调下降趋于0.对于凸函数 f ( x ) f(x) f(x),易知 ϕ ( t ) \phi (t) ϕ(t) ( 0 , + ∞ ) (0, +\infty) (0,+)上是单调不减,上式中的 l i m lim lim可以替换为下确界 i n f inf inf,上述此时极限总是存在(可以为无穷),进而凸函数总是可以定义为方向导数

方向导数:对于凸函数 f f f,给顶点 x 0 ∈ d o m f x_{0}\in domf x0domf以及方向 d ∈ R n d\in R^{n} dRn,其方向导数定义为

∂ f ( x 0 ; d ) = i n f t > 0 f ( x 0 + t d ) − f ( x 0 ) t \partial f(x_{0};d)=\mathop{inf}\limits_{t>0}\frac{f(x_{0}+td)-f(x_{0})}{t} f(x0;d)=t>0inftf(x0+td)f(x0)

方向导数可能是正负无穷,但是在定义域内点处方向导数 ∂ f ( x 0 ; d ) \partial f(x_{0};d) f(x0;d)是有限的

方向导数和次梯度:设 f : R n → ( − ∞ , + ∞ ] f:R^{n}\rightarrow(-\infty,+\infty] f:Rn(,+]为凸函数,点 x 0 ∈ i n t d o m f x_{0}\in int domf x0intdomf d d d R n R^{n} Rn中任一方向,则

  • 对于可微函数 ∂ f ( x 0 ; d ) = ∇ f ( x 0 T ) d \partial f(x_{0};d)=\nabla f(x_{0}^{T})d f(x0;d)=f(x0T)d
  • 这也说明 ∂ f ( x 0 ; d ) \partial f(x_{0};d) f(x0;d)对所有的 x 0 ∈ i n t d o m f x_{0}\in int domf x0intdomf,以及所有的 d d d都存在

∂ f ( x 0 ; d ) = m a x g ∈ ∂ f ( x 0 ) g T d \partial f(x_{0};d)=\mathop{max}\limits_{g\in \partial f(x_{0})}g^{T}d f(x0;d)=gf(x0)maxgTd

作更为一般的推导:设 f f f为适当凸函数,且在 x 0 x_{0} x0处次微分不为空集,则对任意 d ∈ R n d\in R^{n} dRn,有

∂ f ( x 0 ; d ) = s u p g ∈ ∂ f ( x 0 ) g T d \partial f(x_{0};d)=\mathop{sup}\limits_{g\in \partial f(x_{0})}g^{T}d f(x0;d)=gf(x0)supgTd

且当 ∂ f ( x 0 ; d ) \partial f(x_{0};d) f(x0;d)不为无穷时,上确界可以取到

五:次梯度计算规则

次梯度计算:计算一个不可微凸函数的次梯度在优化算法设计中是很重要的问题,但根据定义来计算次梯度又比较繁琐,所以需要介绍一些次梯度的计算规则。需要注意次梯度计算分为

  • 弱次梯度计算:得到一个次梯度即可,这足以满足大多数不可微凸函数优化算法;如果可以获得任意一点处 f ( x ) f(x) f(x)的值,那么总可以计算一个次梯度
  • 强次梯度计算:得到 ∂ f ( x ) \partial f(x) f(x)所有次梯度,一些算法可能需要完整的次微分,计算可能相当负责

下面的介绍中,假设 x ∈ i n t d o m f x\in intdomf xintdomf

(1)基本规则

基本规则

  • 可微凸函数:设 f f f为凸函数,若 f f f在点 x x x处可微,则 ∂ f ( x ) = { ∇ f ( x ) } \partial f(x)=\{\nabla f(x)\} f(x)={f(x)}
  • 凸函数的非负线性组合:设 f 1 f_{1} f1, f 2 f_{2} f2为凸函数,且满足 i n t d o m f 1 ∩ d o m f 2 ≠ ∅ int \quad domf_{1}\cap domf_{2}\neq \empty intdomf1domf2=,而 x ∈ d o m f 1 ∩ d o m f 2 x\in dom f_{1}\cap dom f_{2} xdomf1domf2,若 f ( x ) = α 1 f 1 ( x ) + α 2 f 2 ( x ) , α 1 , α 2 ≥ 0 f(x)=\alpha_{1}f_{1}(x)+\alpha_{2}f_{2}(x),\alpha_{1},\alpha_{2}\geq 0 f(x)=α1f1(x)+α2f2(x),α1,α20,则 f ( x ) f(x) f(x)的次微分: ∂ f ( x ) = α 1 ∂ f 1 ( x ) + α 2 ∂ f 2 ( x ) \partial f(x)=\alpha_{1}\partial f_{1}(x)+\alpha_{2}\partial f_{2}(x) f(x)=α1f1(x)+α2f2(x)
  • 线性变量替换:设 h h h为适当凸函数,且函数 f f f满足 f ( x ) = h ( A x + b ) , ∀ x ∈ R m f(x)=h(Ax+b),\forall x\in R^{m} f(x)=h(Ax+b),xRm,其中 A ∈ R n × m A\in R^{n×m} ARn×m b ∈ R n b\in R^{n} bRn。若存在 x # ∈ R m x^{\#}\in R^{m} x#Rm,使得 A x # + b ∈ i n t d o m h Ax^{\#}+b\in intdomh Ax#+bintdomh,则 ∂ f ( x ) = A T ∂ h ( A x + b ) \partial f(x)=A^{T}\partial h(Ax+b) f(x)=ATh(Ax+b) ∀ x ∈ i n t d o m f \forall x\in int domf xintdomf

(2)两个函数之和的次梯度

Moreau-Rockafellar定理:设 f 1 , f 2 : R n → ( − ∞ , + ∞ ] f_{1},f_{2}:R^{n}\rightarrow(-\infty,+\infty] f1,f2:Rn(,+]是两个凸函数,则对任意的 x 0 ∈ R n x_{0}\in R^{n} x0Rn

∂ f 1 ( x 0 ) + ∂ f 2 ( x 0 ) ⊆ ∂ ( f 1 + f 2 ) ( x 0 ) \partial f_{1}(x_{0})+\partial f_{2}(x_{0}) \subseteq \partial(f_{1}+f_{2})(x_{0}) f1(x0)+f2(x0)(f1+f2)(x0)

进一步,若 i n t d o m f 1 ∩ d o m f 2 ≠ ∅ int\quad domf_{1}\cap domf_{2}\neq \empty intdomf1domf2=,则对任意 x 0 ∈ R n x_{0}\in R^{n} x0Rn

∂ ( f 1 + f 2 ) ( x 0 ) = ∂ f 1 ( x 0 ) + ∂ f 2 ( x 0 ) \partial(f_{1}+f_{2})(x_{0})=\partial f_{1}(x_{0})+\partial f_{2}(x_{0}) (f1+f2)(x0)=f1(x0)+f2(x0)

(3)函数族的上确界

函数族的上确界:容易验证一族凸函数的上确界函数仍为凸函数。设 f 1 , f 2 , . . . , f m : R n → ( − ∞ , + ∞ ] f_{1},f_{2},...,f_{m}:R^{n}\rightarrow(-\infty,+\infty] f1,f2,...,fm:Rn(,+]均为凸函数,令

f ( x ) = m a x { f 1 ( x ) , f 2 ( x ) , . . . , f m ( x ) } , ∀ x ∈ R n f(x)=max\{f_{1}(x),f_{2}(x),...,f_{m}(x)\},\forall x\in R^{n} f(x)=max{f1(x),f2(x),...,fm(x)},xRn

x 0 ∈ ∩ i = 1 m i n t d o m f i x_{0}\in \mathop{\cap}\limits_{i=1}^{m}int \quad domf_{i} x0i=1mintdomfi,定义 I ( x 0 ) = { i ∣ f i ( x 0 ) = f ( x 0 ) } I(x_{0})=\{i|f_{i}(x_{0})=f(x_{0})\} I(x0)={ifi(x0)=f(x0)},则

∂ f ( x 0 ) = c o n v ∪ i ∈ I ( x 0 ) ∂ f i ( x 0 ) \partial f(x_{0})=conv \mathop{\cup}\limits_{i\in I(x_{0})}\partial f_{i}(x_{0}) f(x0)=conviI(x0)fi(x0)

(4)固定分量的函数极小值

  • h : R n × R m → ( − ∞ , + ∞ ] h:R^{n}×R^{m}\rightarrow(-\infty, +\infty] h:Rn×Rm(,+]是关于 ( x , y ) (x,y) (x,y)的凸函数,则 f ( x ) = inf ⁡ y h ( x , y ) f(x)=\mathop{\inf}\limits_{y}h(x,y) f(x)=yinfh(x,y)是关于 x ∈ R n x\in R^{n} xRn的凸函数,以下结果可以用于求解 f f f在点 x x x的一个次梯度

固定分量的函数极小值:考虑函数 f ( x ) = inf ⁡ y h ( x , y ) f(x)=\mathop{\inf}\limits_{y}h(x,y) f(x)=yinfh(x,y),其中 h : R n × R m → ( − ∞ , + ∞ ] h:R^{n}×R^{m}\rightarrow(-\infty, +\infty] h:Rn×Rm(,+]是关于 ( x , y ) (x,y) (x,y)的凸函数。对 x ∗ ∈ R n \mathop{x}\limits^{*}\in R^{n} xRn,设 y ∗ ∈ R m \mathop{y}\limits^{*}\in R^{m} yRm满足 h ( x ∗ , y ∗ ) = f ( x ∗ ) h(\mathop{x}\limits^{*}, \mathop{y}\limits^{*})=f(\mathop{x}\limits^{*}) h(x,y)=f(x),且存在 g ∈ R n g\in R^{n} gRn,使得 ( g , 0 ) ∈ ∂ h ( x ∗ , y ∗ ) (g, 0)\in \partial h(\mathop{x}\limits^{*}, \mathop{y}\limits^{*}) (g,0)h(x,y),则 g ∈ ∂ f ( x ∗ ) g\in \partial f(\mathop{x}\limits^{*}) gf(x)

(5)复合函数

复合函数:设 f 1 , f 2 , . . . , f m : R n → ( − ∞ , + ∞ ] f_{1},f_{2},...,f_{m}:R^{n}\rightarrow(-\infty,+\infty] f1,f2,...,fm:Rn(,+] m m m个凸函数, h : R m → ( − ∞ , + ∞ ] h:R^{m}\rightarrow(-\infty,+\infty] h:Rm(,+]为关于各分量单调递增的凸函数,令

f ( x ) = h ( f 1 ( x ) , f 2 ( x ) , . . . , f m ( x ) ) f(x)=h(f_{1}(x),f_{2}(x),...,f_{m}(x)) f(x)=h(f1(x),f2(x),...,fm(x))

z = ( z 1 , z 2 , . . . , z m ) ∈ ∂ h ( f 1 ( x ∗ ) , f 2 ( x ∗ ) , . . . , f m ( x ∗ ) ) z=(z_{1},z_{2},...,z_{m})\in \partial h(f_{1}(\mathop{x}\limits^{*}), f_{2}(\mathop{x}\limits^{*}),...,f_{m}(\mathop{x}\limits^{*})) z=(z1,z2,...,zm)h(f1(x),f2(x),...,fm(x))以及 g i ∈ ∂ f i ( x ∗ ) g_{i}\in\partial f_{i}(\mathop{x}\limits^{*}) gifi(x),则

g = z 1 g 1 + z 2 g 2 + . . . + z m g m ∈ ∂ f ( x ∗ ) g = z_{1}g_{1}+z_{2}g_{2}+...+z_{m}g_{m}\in \partial f(\mathop{x}\limits^{*}) g=z1g1+z2g2+...+zmgmf(x)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

快乐江湖

创作不易,感谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值