一、共轭函数
1.1 共轭函数的定义和例子
- 共轭函数:
f
∗
(
y
)
=
s
u
p
x
∈
d
o
m
f
{
y
T
x
−
f
(
x
)
}
f^*(y)=\underset{x\in dom f}{sup}\{y^Tx-f(x)\}
f∗(y)=x∈domfsup{yTx−f(x)}
- 几何意义:
x
y
xy
xy与
f
(
x
)
f(x)
f(x)之间差值的最大值。
- 几何意义:
x
y
xy
xy与
f
(
x
)
f(x)
f(x)之间差值的最大值。
- Fenchel 不等式: f ( x ) + f ∗ ( y ) ⩾ x T y f(x)+f^*(y)\geqslant x^Ty f(x)+f∗(y)⩾xTy
1.2 二次共轭函数
- 二次共轭函数: f ∗ ∗ ( y ) = s u p x ∈ d o m f ∗ { x T y − f ∗ ( x ) } f^{**}(y)=\underset{x\in dom f*}{sup}\{x^Ty-f^*(x)\} f∗∗(y)=x∈domf∗sup{xTy−f∗(x)}
二、次梯度
2.1 次梯度的定义
- 次梯度:设 f f f为适当凸函数, x x x为定义域 d o m f domf domf中的一个点,若向量 g ∈ R n g\in \R^n g∈Rn满足, f ( y ) ⩾ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f f(y) \geqslant f(x)+g^T(y-x),\forall y\in domf f(y)⩾f(x)+gT(y−x),∀y∈domf,则称 g g g为函数 f f f在点 x x x处的一个次梯度。
- 次微分: ∂ f ( x ) = { g ∣ g ∈ R n , f ( y ) ⩾ f ( x ) + g T ( y − x ) , ∀ y ∈ d o m f } \partial f(x)=\{g|g\in \R^n,f(y)\geqslant f(x) + g^T(y-x),\forall y \in domf\} ∂f(x)={g∣g∈Rn,f(y)⩾f(x)+gT(y−x),∀y∈domf}
- 形式化理解:对于
f
(
x
)
=
∣
x
∣
f(x)=|x|
f(x)=∣x∣,在
x
=
0
x=0
x=0的点,无导数,所以可以用次梯度。
- 次微分: ∂ f ( x ) \partial f(x) ∂f(x)为在 [ a , b ] [a,b] [a,b]区间内的次梯度
2.2 次梯度的性质
- 次梯度的单调性: f : R n → R f:\R^n \rightarrow \R f:Rn→R为凸函数, x , y ∈ d o m f x,y\in dom f x,y∈domf,则 μ ∈ ∂ f ( x ) , v ∈ ∂ f ( y ) \mu\in \partial f(x),v\in \partial f(y) μ∈∂f(x),v∈∂f(y)
- 待补…
2.3 凸函数的方向导数
- f f f为适当函数,给定点 x 0 x_0 x0以及方向 d ∈ R n d\in \R^n d∈Rn,方向导数定义为: l i m ϕ ( t ) t ↓ 0 = l i m t ↓ 0 f ( x 0 + t d ) − f ( x 0 ) t \underset{t\downarrow 0}{lim\phi(t)}=\underset{t\downarrow 0}{lim}\frac{f(x_0+td)-f(x_0)}{t} t↓0limϕ(t)=t↓0limtf(x0+td)−f(x0)
- 方向导数定义: ∂ f ( x 0 ; d ) = i n f t > 0 f ( x 0 + t d ) − f ( x 0 ) t \partial f(x_0;d)=\underset{t>0}{inf}\frac{f(x_0+td)-f(x_0)}{t} ∂f(x0;d)=t>0inftf(x0+td)−f(x0)
2.4 次梯度的计算规则
1. 基本规则
- 可微凸函数: f f f为凸函数,若 f f f在点 x x x处可微,则 ∂ f ( x ) = { ∇ f ( x ) } \partial f(x)=\{\nabla f(x)\} ∂f(x)={∇f(x)}
- 凸函数的非负线性组合: f 1 , f 2 f_1,f_2 f1,f2为凸函数,且满足 i n t d o m f 1 ∩ d o m f 2 ≠ ∅ , x ∈ d o m f 1 ∩ d o m f 2 int domf_1\cap domf_2 \neq \varnothing,x\in domf_1\cap domf_2 intdomf1∩domf2=∅,x∈domf1∩domf2,若 f ( x ) = a 1 f 1 ( x ) + a 2 f 2 ( x ) , a 1 , a 2 ⩾ 0 f(x)=a_1f_1(x)+a_2f_2(x),a_1,a_2\geqslant 0 f(x)=a1f1(x)+a2f2(x),a1,a2⩾0,则次微分为 ∂ f ( x ) = a 1 ∂ f 1 ( x ) + a 2 ∂ f 2 ( x ) \partial f(x)=a_1\partial f_1(x)+a_2\partial f_2(x) ∂f(x)=a1∂f1(x)+a2∂f2(x)
- 线性变量替换:
h
h
h为适当凸函数,且函数
f
f
f满足
f
(
x
)
=
h
(
A
x
+
b
)
,
∀
x
∈
R
m
f(x)=h(Ax+b),\forall x\in \R^m
f(x)=h(Ax+b),∀x∈Rm,其中
A
∈
R
n
×
m
,
b
∈
R
n
A\in \R^{n×m},b\in R^n
A∈Rn×m,b∈Rn。若存在
x
#
∈
R
m
x^{\#}\in \R^m
x#∈Rm,使得
A
x
#
+
b
∈
i
n
t
d
o
m
h
Ax^{\#}+b\in int domh
Ax#+b∈intdomh,则
∂
f
(
x
)
=
A
T
∂
h
(
A
x
+
b
)
,
∀
x
∈
i
n
t
d
o
m
f
\partial f(x)=A^T\partial h(Ax+b),\forall x\in int dom f
∂f(x)=AT∂h(Ax+b),∀x∈intdomf
待补…