凸集
设 D ⊂ R n D\subset R^n D⊂Rn ,若对任意的 X ⃗ 1 , X ⃗ 2 ∈ D \vec X_1,\vec X_2 \in D X1,X2∈D, α ∈ [ 0 , 1 ] α\in [0,1] α∈[0,1] 都有 α X 1 + ( 1 − α ) X 1 ∈ D αX_1+(1-α)X_1 \in D αX1+(1−α)X1∈D ,则称D为凸集。从几何直观上将,如果集合中的任意两点的连线仍在该集合中,则这个集合为凸集。
设 X ⃗ 1 , X ⃗ 2 , . . . , X ⃗ m ∈ D \vec X_1,\vec X_2,...,\vec X_m \in D X1,X2,...,Xm∈D, α 1 , α 2 , . . . , α m α_1,α_2,...,α_m α1,α2,...,αm是一组非负实数,且 ∑ i = 1 m α i = 1 \sum_{i=1}^m α_i = 1 ∑i=1mαi=1,则 ∑ i = 1 m α i X i \sum_{i=1}^m α_iX_i ∑i=1mαiXi 称为 X ⃗ 1 , X ⃗ 2 , . . . , X ⃗ m \vec X_1,\vec X_2,...,\vec X_m X1,X2,...,Xm的一个凸组合。
凸集的充要条件
D为凸集的充要条件是D中任意有限个点的凸组合仍在D中。
凸集的充要条件证明
充分性不证自明, 有限个点就涵盖了两个点
所以只需证必要性
通过简单的对凸组合点的个数进行数学归纳法即可证明。
1° 当凸组合点的个数为2时,显然成立.
2° 假设任意不多于k个点的凸组合仍在D中,考察任意k+1个点的凸组合。
任选一个,凸组合为 ∑ i = 1 k + 1 α i X ⃗ i \sum_{i=1}^{k+1} α_i\vec X_i ∑i=1k+1αiXi。
如果 α k + 1 = 1 α_{k+1} = 1 αk+1=1显然成立。当 0 < α k + 1 < 1 0 \lt α_{k+1} \lt 1 0<αk+1<1时,令 α i ′ = α i / ( 1 − α k + 1 ) , ( i = 1 , . . . , k ) α'_i = α_i/(1-α_{k+1}), (i=1,...,k) αi′=αi/(1−αk+1),(i=1,...,k),则 ∑ i = 1 k α i ′ = 1 \sum_{i=1}^k α'_i = 1 ∑i=1kαi′=1,则 X ⃗ ′ = ∑ i = 1 k α i ′ X ⃗ i ∈ D \vec X'=\sum_{i=1}^k α'_i\vec X_i \in D X′=∑i=1kαi′Xi∈D, 所以 α k + 1 X ⃗ k + 1 + ( 1 − α k + 1 ) X ⃗ ′ ∈ D α_{k+1}\vec X_{k+1} + (1 - α_{k+1})\vec X' \in D αk+1Xk+1+(1−αk+1)X′∈D, 所以 ∑ i = 1 k + 1 α i X ⃗ i ∈ D \sum_{i=1}^{k+1} α_i\vec X_i \in D ∑i=1k+1αiXi∈D
综合 1° 2°,必要性成立。
凸函数
设 f : D ⊂ R n → R f:D \subset R^n \to R f:D⊂Rn→R , D是凸集,若对任意的 X ⃗ 1 , X ⃗ 2 ∈ D \vec X_1,\vec X_2 \in D X1,X2∈D, α ∈ ( 0 , 1 ) α\in (0,1) α∈(0,1),都有 f ( α X ⃗ 1 + ( 1 − α ) X ⃗ 2 ) ≤ α f ( X ⃗ 1 ) + ( 1 − α ) f ( X ⃗ 2 ) f(α \vec X_1+(1-α)\vec X_2)\leq α f(\vec X_1)+(1-α)f(\vec X_2) f(αX1+(1−α)X2)≤αf(X1)+(1−α)f(X2) 则称f为D上的凸函数。
函数是凸函数的充要条件
(a) 对任意的 X ⃗ 1 , X ⃗ 2 , . . . , X ⃗ m ∈ D , α i ≥ 0 ( m ≥ 2 ) \vec X_1,\vec X_2,...,\vec X_m \in D, α_i\ge 0 (m\ge 2) X1,X2,...,Xm∈D,αi≥0(m≥2),满足 ∑ 1 m α i = 1 \sum_{1}^m α_i =1 ∑1mαi=1, 都有 f ( ∑ 1 m α i X ⃗ i ) ≤ ∑ 1 m α i f ( X ⃗ i ) f(\sum_1^m α_i\vec X_i)\le \sum_1^m α_if(\vec X_i) f(∑1mαiXi)≤∑1mαif(Xi);
(b) f ( x ⃗ ) f(\vec x) f(x) 在D可微时,对任意 X ⃗ 1 , X ⃗ 2 ∈ D \vec X_1,\vec X_2 \in D X1,X2∈D,都有 f ( X ⃗ 2 ) ≥ f ( X ⃗ 1 ) + ( ∇ f ( X ⃗ 1 ) ) T ( X ⃗ 1 − X ⃗ 2 ) f(\vec X_2) \geq f(\vec X_1)+ (\nabla f(\vec X_1))^T(\vec X_1-\vec X_2) f(X2)≥f(X1)+(∇f(X1))T(X1−X2);
© f ( x ⃗ ) f(\vec x) f(x) 在D上具有连续的二阶偏导数时,充要条件是 ∇ 2 f ( X ⃗ ) \nabla^2 f(\vec X) ∇2f(X)是半正定矩阵。
a的证明
充分性不证自明,所以只需证必要性
通过简单的对m进行数学归纳法即可证明。
1° 当m=2时,显然成立.
2° 假设m<=k时,
f
(
∑
1
m
α
i
X
⃗
i
)
≤
∑
1
m
α
i
f
(
X
⃗
i
)
f(\sum_1^m α_i\vec X_i)\le \sum_1^m α_if(\vec X_i)
f(∑1mαiXi)≤∑1mαif(Xi) 。考察m=k+1时,
令
α
i
′
=
α
i
/
(
1
−
α
k
+
1
)
,
(
i
=
1
,
.
.
.
,
k
)
α'_i = α_i/(1-α_{k+1}), (i=1,...,k)
αi′=αi/(1−αk+1),(i=1,...,k),则
∑
i
=
1
k
α
i
′
=
1
\sum_{i=1}^k α'_i = 1
∑i=1kαi′=1,则
f
(
∑
1
k
α
i
′
X
⃗
i
)
≤
∑
1
k
α
i
′
f
(
X
⃗
i
)
f(\sum_1^k α'_i\vec X_i)\le \sum_1^k α'_if(\vec X_i)
f(∑1kαi′Xi)≤∑1kαi′f(Xi), 令
X
⃗
′
=
∑
i
=
1
k
α
i
′
X
⃗
i
∈
D
\vec X'=\sum_{i=1}^k α'_i\vec X_i \in D
X′=∑i=1kαi′Xi∈D, 则
f
(
∑
1
m
α
i
X
⃗
i
)
=
f
(
α
k
+
1
X
⃗
k
+
1
+
(
1
−
α
k
+
1
)
X
⃗
′
)
≤
α
k
+
1
f
(
X
⃗
k
+
1
)
+
(
1
−
α
k
+
1
)
∑
1
k
α
i
′
f
(
X
⃗
i
)
=
∑
1
m
α
i
f
(
X
⃗
i
)
f(\sum_1^m α_i\vec X_i) = f(α_{k+1} \vec X_{k+1}+(1-α_{k+1})\vec X')\leq α_{k+1} f(\vec X_{k+1})+(1-α_{k+1})\sum_1^k α'_if(\vec X_i) = \sum_1^m α_if(\vec X_i)
f(1∑mαiXi)=f(αk+1Xk+1+(1−αk+1)X′)≤αk+1f(Xk+1)+(1−αk+1)1∑kαi′f(Xi)=1∑mαif(Xi)
b的证明
引理1 一维凸函数f(x)如果有导数f’(x),那么f’(x)单调不减
引理1证明
反证法,假设存在
x
1
<
x
2
x_1\lt x_2
x1<x2,使得
f
′
(
x
1
)
>
f
′
(
x
2
)
f'(x_1)>f'(x_2)
f′(x1)>f′(x2)
因为f(x)是凸函数,那么对于任意
d
∈
R
d\in R
d∈R
f
(
x
+
d
)
≤
1
2
f
(
x
)
+
1
2
f
(
x
+
2
d
)
f(x+d)\le \frac12f(x) + \frac12f(x+2d)
f(x+d)≤21f(x)+21f(x+2d)
转换一下
f
(
x
+
2
d
)
−
f
(
x
+
d
)
≥
f
(
x
+
d
)
−
f
(
x
)
f(x+2d) - f(x+d) \ge f(x+d) - f(x)
f(x+2d)−f(x+d)≥f(x+d)−f(x)
令
d
=
(
x
2
−
x
1
)
/
n
>
0
d = (x_2-x_1)/n \gt 0
d=(x2−x1)/n>0,
而
lim
d
→
0
(
f
(
x
1
)
−
f
(
x
1
−
d
)
)
/
d
=
f
′
(
x
1
)
\lim_{d\rightarrow 0} (f(x_1) - f(x_1 - d))/d= f'(x_1)
limd→0(f(x1)−f(x1−d))/d=f′(x1), 所以当
n
>
N
1
n \gt N_1
n>N1,即
d
<
d
1
d\lt d_1
d<d1时,
(
f
(
x
1
+
d
)
−
f
(
x
1
)
)
/
d
>
f
′
(
x
1
)
−
(
f
′
(
x
1
)
−
f
′
(
x
2
)
)
/
2
(f(x_1+d) - f(x_1))/d > f'(x_1) - (f'(x_1)-f'(x_2))/2
(f(x1+d)−f(x1))/d>f′(x1)−(f′(x1)−f′(x2))/2
同样的当
n
>
N
2
n \gt N_2
n>N2,即
d
<
d
2
d\lt d_2
d<d2时,
(
f
(
x
2
)
−
f
(
x
2
−
d
)
)
/
d
<
f
′
(
x
2
)
+
(
f
′
(
x
1
)
−
f
′
(
x
2
)
)
/
2
(f(x_2) - f(x_2 - d))/d < f'(x_2) + (f'(x_1)-f'(x_2))/2
(f(x2)−f(x2−d))/d<f′(x2)+(f′(x1)−f′(x2))/2
令
N
=
m
a
x
{
N
1
,
N
2
}
N = max\{N_1,N_2\}
N=max{N1,N2},则
(
f
(
x
2
)
−
f
(
x
2
−
d
)
)
/
d
<
1
2
(
f
′
(
x
1
)
+
f
′
(
x
2
)
)
<
(
f
(
x
1
+
d
)
−
f
(
x
1
)
)
/
d
(f(x_2) - f(x_2 - d))/d \lt \frac12 (f'(x_1) + f'(x_2)) \lt (f(x_1+d) - f(x_1))/d
(f(x2)−f(x2−d))/d<21(f′(x1)+f′(x2))<(f(x1+d)−f(x1))/d
所以
f
(
x
2
)
−
f
(
x
2
−
d
)
<
f
(
x
1
+
d
)
−
f
(
x
1
)
f(x_2) - f(x_2 - d) \lt f(x_1+d) - f(x_1)
f(x2)−f(x2−d)<f(x1+d)−f(x1)
而
f
(
x
2
)
−
f
(
x
2
−
d
)
≥
f
(
x
2
−
d
)
−
f
(
x
2
−
2
d
)
≥
.
.
.
.
≥
f
(
x
2
−
(
n
−
1
)
d
)
−
f
(
x
2
−
n
d
)
=
f
(
x
1
+
d
)
−
f
(
x
1
)
f(x_2) - f(x_2 - d) \ge f(x_2 - d) - f(x_2 - 2d) \ge .... \ge f(x_2-(n-1)d) - f(x_2 - nd) = f(x_1+d) - f(x_1)
f(x2)−f(x2−d)≥f(x2−d)−f(x2−2d)≥....≥f(x2−(n−1)d)−f(x2−nd)=f(x1+d)−f(x1)
产生矛盾所以假设不成立, 引理1成立。
先证必要性
定义
g
(
t
)
=
f
(
X
⃗
1
+
t
(
X
⃗
2
−
X
⃗
1
)
)
g(t) = f(\vec X_1+t(\vec X_2 - \vec X_1))
g(t)=f(X1+t(X2−X1))
发现对任意的
t
1
,
t
2
∈
R
,
α
∈
(
0
,
1
)
t_1,t_2 \in R, α\in (0,1)
t1,t2∈R,α∈(0,1),
g
(
t
1
+
α
(
t
2
−
t
1
)
)
=
f
(
X
⃗
1
+
(
t
1
+
α
(
t
2
−
t
1
)
)
(
X
⃗
2
−
X
⃗
1
)
)
=
f
(
X
⃗
1
+
t
1
(
X
⃗
2
−
X
⃗
1
)
+
α
(
t
2
−
t
1
)
(
X
⃗
2
−
X
⃗
1
)
)
≤
(
1
−
α
)
f
(
X
⃗
1
+
t
1
(
X
⃗
2
−
X
⃗
1
)
)
+
α
f
(
X
⃗
1
+
t
2
(
X
⃗
2
−
X
⃗
1
)
=
(
1
−
α
)
g
(
t
1
)
+
α
g
(
t
2
)
\begin{aligned} g(t_1+α(t_2 - t_1)) &= f(\vec X_1+(t_1+α(t_2 - t_1))(\vec X_2 - \vec X_1))\\ &= f(\vec X_1+t_1(\vec X_2 - \vec X_1)+α(t_2 - t_1)(\vec X_2 - \vec X_1))\\ & \le (1-α)f(\vec X_1+t_1(\vec X_2 - \vec X_1)) + αf(\vec X_1+t_2(\vec X_2 - \vec X_1)\\ &=(1-α)g(t_1) + αg(t_2) \end{aligned}
g(t1+α(t2−t1))=f(X1+(t1+α(t2−t1))(X2−X1))=f(X1+t1(X2−X1)+α(t2−t1)(X2−X1))≤(1−α)f(X1+t1(X2−X1))+αf(X1+t2(X2−X1)=(1−α)g(t1)+αg(t2)
所以g(t)是凸函数, 而其是一维函数,所以g’(t)不减(反证)。所以
g
(
1
)
−
g
(
0
)
≥
g
′
(
0
)
∗
(
1
−
0
)
=
g
′
(
0
)
g(1) - g(0) \ge g'(0) * (1-0) = g'(0)
g(1)−g(0)≥g′(0)∗(1−0)=g′(0)
而
g
′
(
t
)
=
(
∇
f
(
X
⃗
1
+
t
(
X
⃗
2
−
X
⃗
1
)
)
)
T
(
X
⃗
2
−
X
⃗
1
)
g'(t) = (\nabla f(\vec X_1+t(\vec X_2 - \vec X_1)))^T(\vec X_2 - \vec X_1)
g′(t)=(∇f(X1+t(X2−X1)))T(X2−X1)
代入得到
f
(
X
2
)
−
f
(
X
1
)
≥
(
∇
f
(
X
⃗
1
)
)
T
(
X
⃗
1
−
X
⃗
2
)
f(X_2) - f(X_1) \ge (\nabla f(\vec X_1))^T(\vec X_1-\vec X_2)
f(X2)−f(X1)≥(∇f(X1))T(X1−X2)
移项一下
f
(
X
2
)
≥
f
(
X
1
)
+
(
∇
f
(
X
⃗
1
)
)
T
(
X
⃗
1
−
X
⃗
2
)
f(X_2) \ge f(X_1) + (\nabla f(\vec X_1))^T(\vec X_1-\vec X_2)
f(X2)≥f(X1)+(∇f(X1))T(X1−X2)
再证充分性
发现对任意的
X
⃗
1
,
X
⃗
2
∈
D
,
α
∈
(
0
,
1
)
\vec X_1,\vec X_2 \in D, α\in (0,1)
X1,X2∈D,α∈(0,1),
f
(
X
⃗
2
)
≥
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
+
(
1
−
α
)
(
∇
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
T
(
X
⃗
2
−
X
⃗
1
)
f(\vec X_2)\ge f(\vec X_1+α(\vec X_2-\vec X_1)) + (1-α)(\nabla f(\vec X_1+α(\vec X_2-\vec X_1))^T(\vec X_2-\vec X_1)
f(X2)≥f(X1+α(X2−X1))+(1−α)(∇f(X1+α(X2−X1))T(X2−X1)
f
(
X
⃗
1
)
≥
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
−
α
(
∇
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
T
(
X
⃗
2
−
X
⃗
1
)
f(\vec X_1)\ge f(\vec X_1+α(\vec X_2-\vec X_1)) -α(\nabla f(\vec X_1+α(\vec X_2-\vec X_1))^T(\vec X_2-\vec X_1)
f(X1)≥f(X1+α(X2−X1))−α(∇f(X1+α(X2−X1))T(X2−X1)
变换一下
1
1
−
α
(
f
(
X
⃗
2
)
−
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
)
≥
(
∇
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
T
(
X
⃗
2
−
X
⃗
1
)
≥
1
α
(
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
−
f
(
X
⃗
1
)
)
\frac 1{1-α}(f(\vec X_2) - f(\vec X_1+α(\vec X_2-\vec X_1)))\ge (\nabla f(\vec X_1+α(\vec X_2-\vec X_1))^T(\vec X_2-\vec X_1) \ge \frac 1α(f(\vec X_1+α(\vec X_2-\vec X_1)) - f(\vec X_1))
1−α1(f(X2)−f(X1+α(X2−X1)))≥(∇f(X1+α(X2−X1))T(X2−X1)≥α1(f(X1+α(X2−X1))−f(X1))
所以
f
(
X
⃗
1
+
α
(
X
⃗
2
−
X
⃗
1
)
)
≥
(
1
−
α
)
f
(
X
⃗
1
)
+
α
f
(
X
⃗
2
)
f(\vec X_1+α(\vec X_2-\vec X_1)) \ge (1-α)f(\vec X_1) + αf(\vec X_2)
f(X1+α(X2−X1))≥(1−α)f(X1)+αf(X2)
c的证明
先证必要性
定义
g
(
t
)
=
f
(
X
⃗
1
+
t
(
X
⃗
2
−
X
⃗
1
)
)
g(t) = f(\vec X_1+t(\vec X_2 - \vec X_1))
g(t)=f(X1+t(X2−X1))
g(t)是凸函数之前已经证明过了。
g
′
(
t
)
=
(
∇
f
(
X
⃗
1
+
t
(
X
⃗
2
−
X
⃗
1
)
)
)
T
(
X
⃗
2
−
X
⃗
1
)
g'(t) = (\nabla f(\vec X_1+t(\vec X_2 - \vec X_1)))^T(\vec X_2 - \vec X_1)
g′(t)=(∇f(X1+t(X2−X1)))T(X2−X1)
因为
f
(
x
⃗
)
f(\vec x)
f(x) 在D上具有连续的二阶偏导数
g
′
′
(
t
)
=
(
X
⃗
2
−
X
⃗
1
)
T
(
∇
2
f
(
X
⃗
1
+
t
(
X
⃗
2
−
X
⃗
1
)
)
)
T
(
X
⃗
2
−
X
⃗
1
)
g''(t) = (\vec X_2 - \vec X_1)^T(\nabla^2 f(\vec X_1+t(\vec X_2 - \vec X_1)))^T(\vec X_2 - \vec X_1)
g′′(t)=(X2−X1)T(∇2f(X1+t(X2−X1)))T(X2−X1)
因为g’(t)单调不减,所以g’’(t)>=0,所以
(
∇
2
f
(
X
⃗
1
+
t
(
X
⃗
2
−
X
⃗
1
)
)
)
T
(\nabla^2 f(\vec X_1+t(\vec X_2 - \vec X_1)))^T
(∇2f(X1+t(X2−X1)))T半正定, 取t=0,则
(
∇
2
f
(
X
⃗
1
)
)
T
(\nabla^2 f(\vec X_1))^T
(∇2f(X1))T半正定,所以对任意
X
⃗
∈
D
\vec X \in D
X∈D
(
∇
2
f
(
X
⃗
)
)
T
(\nabla^2 f(\vec X))^T
(∇2f(X))T半正定。
必要性的另一证法
反证法, 假设
∇
2
f
(
X
⃗
)
\nabla^2 f(\vec X)
∇2f(X)不是半正定, 那么存在
d
⃗
\vec d
d,使得
(
d
⃗
)
T
∇
2
f
(
X
⃗
)
d
⃗
<
0
(\vec d)^T\nabla^2 f(\vec X)\vec d < 0
(d)T∇2f(X)d<0
因为
f
(
X
⃗
)
f(\vec X)
f(X) 在D上具有连续的二阶偏导数, 将
f
(
x
⃗
+
d
⃗
/
N
)
f(\vec x + \vec d/N)
f(x+d/N)进行带拉格朗日余项的泰勒展开
f
(
X
⃗
+
d
⃗
/
N
)
=
f
(
X
⃗
)
+
(
∇
f
(
X
⃗
)
)
T
(
d
⃗
/
N
)
+
1
2
N
2
(
d
⃗
)
T
∇
2
f
(
X
⃗
+
μ
d
⃗
/
N
)
T
d
⃗
(
0
<
μ
<
1
)
f(\vec X + \vec d/N) = f(\vec X) + (\nabla f(\vec X))^T(\vec d/N) + \frac1{2N^2} (\vec d)^T\nabla^2 f(\vec X + μ\vec d/N)^T\vec d\ \ \ \ (0\ltμ\lt1)
f(X+d/N)=f(X)+(∇f(X))T(d/N)+2N21(d)T∇2f(X+μd/N)Td (0<μ<1)
因为二阶偏导数连续,令
ϵ
=
−
(
d
⃗
)
T
∇
2
f
(
X
⃗
)
d
⃗
ϵ = -(\vec d)^T\nabla^2 f(\vec X)\vec d
ϵ=−(d)T∇2f(X)d,n是
X
⃗
\vec X
X的位数,
ϵ
′
=
ϵ
/
(
n
2
∣
d
⃗
∣
2
)
ϵ' = ϵ/(n^2|\vec d|^2)
ϵ′=ϵ/(n2∣d∣2)。 存在
δ
i
,
j
>
0
δ_{i,j}\gt 0
δi,j>0,任意的
0
<
∣
d
⃗
′
∣
<
δ
i
,
j
0<|\vec d'|<δ_{i,j}
0<∣d′∣<δi,j,都有
∣
∂
2
f
(
X
⃗
+
d
⃗
′
)
∂
x
i
∂
x
j
−
∂
2
f
(
X
⃗
)
∂
x
i
∂
x
j
∣
<
ϵ
′
|\frac {\partial^2 f(\vec X + \vec d')}{\partial x_i\partial x_j} - \frac {\partial^2 f(\vec X)}{\partial x_i\partial x_j}|<ϵ'
∣∂xi∂xj∂2f(X+d′)−∂xi∂xj∂2f(X)∣<ϵ′, 令
δ
=
m
a
x
1
≤
i
,
j
≤
n
{
δ
i
j
}
δ = max_{1 \le i,j\le n}\{δ_{ij}\}
δ=max1≤i,j≤n{δij} , 则 存在
N
1
∈
N
∗
N_1\in N*
N1∈N∗,使得
N
>
N
1
N \gt N_1
N>N1时,
∣
d
⃗
/
N
∣
<
δ
|\vec d/N|\lt δ
∣d/N∣<δ
令
{
a
i
j
}
=
A
=
∇
2
f
(
X
⃗
+
μ
d
⃗
/
N
)
T
−
∇
2
f
(
X
⃗
)
T
\{a_{ij}\}=A = \nabla^2f(\vec X + μ\vec d/N)^T - \nabla^2f(\vec X)^T
{aij}=A=∇2f(X+μd/N)T−∇2f(X)T, 当
N
>
N
1
N \gt N_1
N>N1时,
∣
μ
d
⃗
/
N
∣
<
∣
d
⃗
/
N
∣
<
δ
|μ\vec d/N|\lt |\vec d/N|\lt δ
∣μd/N∣<∣d/N∣<δ, 则
∣
a
i
j
∣
<
ϵ
′
|a_{ij}|\lt ϵ'
∣aij∣<ϵ′
∣
d
⃗
T
A
d
⃗
∣
≤
∑
1
≤
i
,
j
≤
n
∣
a
i
j
∣
∣
d
⃗
∣
2
<
n
2
ϵ
′
∣
d
⃗
∣
2
=
ϵ
|\vec d^TA\vec d| \le \sum_{1\le i,j \le n}|a_{ij}||\vec d|^2\lt n^2 ϵ' |\vec d|^2 = ϵ
∣dTAd∣≤1≤i,j≤n∑∣aij∣∣d∣2<n2ϵ′∣d∣2=ϵ
所以
(
d
⃗
)
T
∇
2
f
(
X
⃗
+
μ
d
⃗
/
N
)
T
d
⃗
=
(
d
⃗
)
T
∇
2
f
(
X
⃗
)
T
d
⃗
+
(
d
⃗
)
T
A
d
⃗
<
−
ϵ
+
ϵ
=
0
(\vec d)^T\nabla^2 f(\vec X + μ\vec d/N)^T\vec d = (\vec d)^T\nabla^2 f(\vec X)^T\vec d + (\vec d)^TA\vec d \lt -ϵ + ϵ = 0
(d)T∇2f(X+μd/N)Td=(d)T∇2f(X)Td+(d)TAd<−ϵ+ϵ=0
所以
f
(
X
⃗
+
d
⃗
/
N
)
<
f
(
X
⃗
)
+
(
∇
f
(
X
⃗
)
)
T
(
d
⃗
/
N
)
f(\vec X + \vec d/N) \lt f(\vec X) + (\nabla f(\vec X))^T(\vec d/N)
f(X+d/N)<f(X)+(∇f(X))T(d/N)
与b矛盾,所以假设不成立。
再证充分性
因为
f
(
X
⃗
)
f(\vec X)
f(X) 在D上具有连续的二阶偏导数, 将
f
(
X
⃗
2
)
f(\vec X_2)
f(X2)在
X
⃗
1
\vec X_1
X1进行带拉格朗日余项的泰勒展开
f
(
X
⃗
2
)
=
f
(
X
⃗
1
)
+
(
∇
f
(
X
⃗
)
)
T
(
X
⃗
2
−
X
⃗
1
)
+
1
2
(
X
⃗
2
−
X
⃗
1
)
T
∇
2
f
(
X
⃗
+
μ
(
X
⃗
2
−
X
⃗
1
)
)
T
(
X
⃗
2
−
X
⃗
1
)
(
0
<
μ
<
1
)
f(\vec X_2) = f(\vec X_1) + (\nabla f(\vec X))^T(\vec X_2 - \vec X_1) + \frac12(\vec X_2 - \vec X_1)^T\nabla^2 f(\vec X + μ(\vec X_2 - \vec X_1))^T(\vec X_2 - \vec X_1)\ \ \ \ (0\ltμ\lt1)
f(X2)=f(X1)+(∇f(X))T(X2−X1)+21(X2−X1)T∇2f(X+μ(X2−X1))T(X2−X1) (0<μ<1)
因为
∇
2
f
(
X
⃗
)
\nabla^2 f(\vec X)
∇2f(X)是半正定矩阵,所以
(
X
⃗
2
−
X
⃗
1
)
T
∇
2
f
(
X
⃗
+
μ
(
X
⃗
2
−
X
⃗
1
)
)
T
(
X
⃗
2
−
X
⃗
1
)
≥
0
(\vec X_2 - \vec X_1)^T\nabla^2 f(\vec X + μ(\vec X_2 - \vec X_1))^T(\vec X_2 - \vec X_1)\ge 0
(X2−X1)T∇2f(X+μ(X2−X1))T(X2−X1)≥0
所以
f
(
X
⃗
2
)
≥
f
(
X
⃗
1
)
+
(
∇
f
(
X
⃗
)
)
T
(
X
⃗
2
−
X
⃗
1
)
f(\vec X_2) \ge f(\vec X_1) + (\nabla f(\vec X))^T(\vec X_2 - \vec X_1)
f(X2)≥f(X1)+(∇f(X))T(X2−X1)
根据b,
f
(
X
⃗
)
f(\vec X)
f(X)是凸函数。