抄书——最优化的理论与方法（5）——数学基础（函数和微分）

最新推荐文章于 2024-01-23 14:18:40 发布

转载最新推荐文章于 2024-01-23 14:18:40 发布 · 1.2k 阅读

文章标签：

#抄书

数学专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了最优化理论中的关键概念，包括函数连续性、可微性及二次可微性的定义，介绍了梯度、Hesse矩阵、方向导数、链式法则等核心数学工具，以及中值定理在函数近似中的应用。此外，还讨论了向量值函数的微分基础，Lipschitz连续性及其在误差界估计中的作用。

以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.2.5 函数和微分

1.2.5 函数和微分

连续函数 $f:Rn→Rf:R^n\to R$ 称为在 $x∈Rnx\in R^n$ 连续可微，如果 $(∂f∂xi)(x)\left( \frac{\partial f}{\partial x_i}\right)(x)$ 存在且连续， $i=1,2,⋯ ,ni=1,2,\cdots,n$ ， $f$ 在 $x$ 处的梯度定义为：
$\nabla f(x)=\left[\frac{\partial f}{\partial x_1}(x),\cdots, \frac{\partial f}{\partial x_n}(x)\right]^T$
如果 $f$ 在开集 $D⊂RnD\subset R^n$ 中的每一点连续可微，则称 $f$ 在 $D$ 中连续可微，记作 $f∈C1(D)f\in C^1(D)$ 。
连续可微函数 $f:Rn→Rf:R^n\to R$ 称为在 $x$ 二次连续可微，如果 $∂2f∂xi∂xj(x)\frac{\partial^2f}{\partial x_i \partial x_j}(x)$ 存在且连续， $1≤i,j≤n1\le i, j\le n$ 。 $f$ 在 $x$ 处的 Hesse 矩阵定义为 $n×nn\times n$ 矩阵，其 $i, j$ 元素为：
$\left[\nabla^2f(x) \right]_{ij}=\frac{\partial^2f(x)}{\partial x_i \partial x_j},\quad 1\le i,j\le n$
如果 $f$ 在开集 $D⊂RnD\subset R^n$ 中的每一点二次连续可微，则称 $f$ 在 $D⊂RnD\subset R^n$ 中二次连续可微，记作 $f∈C2(D)f\in C^2(D)$ 。
设 $f:Rn→Rf:R^n\to R$ 在开集 $D⊂RnD\subset R^n$ 上连续可微，对于 $x∈Rn,d∈Rnx\in R^n,d\in R^n$ ， $f$ 在 $x$ 点关于 $d$ 的方向导数定义为：
$\frac{\partial f}{\partial d}(x)=\lim_{\theta\to 0} \frac{f(x+\theta d)-f(x)}{\theta}\qquad(1.2.66)$
该方向导数等于 $∇f(x)Td\nabla f(x)^Td$ ，其中， $∇f(x)\nabla f(x)$ 表示 $f$ 在 $x$ 的梯度，它是 $f$ 的导数 $f^{'} (x)$ 的转置，是 $\times 1$ 向量。
对任何 $x,x+d∈Dx,x+d\in D$ ，或 $x,y∈Dx,y\in D$ ，若 $f:Rn→Rf:R^n\to R$ 在开凸集 $D$ 上连续可微，则有：
$f(x+d)=f(x)+\int^1_0 \nabla f(x+td)^Td\cdot dt\\ \text{ }\\ =f(x)+\int_x^{x+d}\nabla f(\xi)d\xi \qquad(1.2.67)$
因而也有
$f(x+d)=f(x)+\nabla f(\xi)^Td,\quad \xi\in(x,x+d) \qquad(1.2.68a)$
或
$f(y)=f(x)+\nabla f(x+t(y-x))^T(y-x), \quad t\in (0,1) \qquad(1.2.68b)$
或
$f(y)=f(x)+\nabla f(x)^T(y-x)+o(\Vert y-x \Vert), \quad t\in (0,1) \qquad(1.2.68c)$

这是多维 $R^n$ 空间中可微函数的中值定理。

设 $f:Rn→Rf:R^n\to R$ 在开集 $D⊂RnD\subset R^n$ 上二次连续可微，对于 $x∈Rn,d∈Rnx\in R^n, d\in R^n$ ， $f$ 在 $x$ 关于方向 $d$ 的二阶方向导数定义为：
$\frac{\partial^2f}{\partial d^2}(x)=\lim_{\theta \to 0}\frac{\frac{\partial f}{\partial d}(x+\theta d)-\frac{\partial f}{\partial d}(x)}{\theta} \qquad(1.2.69)$
上述定义的二阶方向导数等于 $dT∇2f(x)dd^T\nabla^2f(x)d$ ，其中 $∇2f(x)\nabla^2f(x)$ 表示 $f$ 在 $x$ 的 Hesse 矩阵。对于任何 $x,x+d∈Dx,x+d\in D$ ，存在 $ξ∈(x,x+d)\xi \in (x,x+d)$ ，使得：
$f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(\xi)d\qquad(1.2.70)$
或
$f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x)d+o(\Vert d\Vert^2)\qquad(1.2.71)$
由此，我们也有
$\vert f(y)-f(x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)\Vert\qquad(1.2.72)\\ \text{ } \\ \vert f(y)-f(x)-f'(x_0)(y-x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)-f'(x_0)\Vert\qquad(1.2.73)$
其中， $L (x, y)$ 表示 $x$ 和 $y$ 的连接线段， $ξ=x+t(y−x),0≤t≤1\xi=x+t(y-x),0\le t\le 1$ .

上述中值定理，为函数的近似提供了方法。

设 $h:Rn→R,g:Rm→R,f:Rn→Rmh:R^n \to R,g:R^m \to R,f:R^n \to R^m$ ，并设 $f∈C1(D),g∈C1(D),h(x0)=g(f(x0))f\in C^1(D),g\in C^1(D),h(x_0)=g(f(x_0))$ ，则链式法则为：
$h'(x_0)=g'(f(x_0))f'(x_0)\qquad(1.2.74a)$
其中 $f′(x0)f'(x_0)$ 是 $m×nm\times n$ 矩阵，即
$f'(x_0)=\left[ \frac{\partial f_i(x)}{\partial x_j} \right]_{m\times n}$
有
$h''(x_0)=\nabla f(x_0)^T \nabla^2 g[f(x_0)]\nabla f(x_0)+\sum^m_{i=1}\frac{\partial g[f(x_0)]}{\partial f_i}[f_i(x_0)]''\qquad(1.2.74b)$

(1.2.74b)式较复杂，不知在实际应用中有没有用到的。

下面给出向量值函数的微分基础（即函数值是一个向量）。
连续函数 $F:Rn→RmF:R^n\to R^m$ 在 $x∈Rnx\in R^n$ 连续可微，如果其每一个分量 $fi,(i=1,⋯ ,m)f_i,(i=1,\cdots,m)$ ，在 $x$ 连续可微。 $F$ 在 $x$ 的导数 $F′(x)∈Rm×nF'(x)\in R^{m\times n}$ 叫做 $F$ 在 $x$ 的 Jacobi 矩阵，它的转置叫 $F$ 在 $x$ 的梯度，即：
$F'(x)=J(x)=\nabla F(x)^T$
Jacobi 矩阵的第 i，j 元素为：
$[F'(x)]_{ij}=[J(x)]_{ij}=\frac{\partial f_i}{\partial x_j}(x), \quad i=1,\cdots,m, j=1,\cdots,n$
若 $F:Rn→RmF:R^n\to R^m$ 在开凸集 $D$ 上连续可微，则对于任何 $x,x+d∈Rnx,x+d\in R^n$ ，有
$F(x+d)-F(x)=\int_0^1 J(x+td)d\cdot dt = \int_x^{x+d} F'(\xi)d\xi \qquad(1.2.75)$

对比式（1.2.67），两者的形式是一样的。

定义 1.2.11
$G:Rn→Rm×nG:R^n\to R^{m\times n}$ 在 $x∈D⊂Rnx\in D\subset R^n$ 上称为 Lipschitz 连续，如果 $∀v∈D\forall v\in D$ ，
$\Vert G(v)-G(x)\Vert\le \gamma\Vert v-x\Vert,\qquad(1.2.76)$
其中 $γ\gamma$ 称为 Lipschitz 常数。如果 $x∈D⊂Rnx\in D\subset R^n$ ，(1.2.76)成立，则称 $G$ 在 $D$ 上 Lipschitz 连续，记作 $G∈Lipγ(D)G\in Lip_{\gamma}(D)$ 。

Lipschitz 连续，常出现，比如在：Wasserstein GAN 中要求，判别器的网络参数满足Lipschitz 连续要求。

定理 1.2.12
设 $F:Rn→Rm×nF:R^n\to R^{m\times n}$ 在开凸集 $D$ 上连续可微， $F^{'}$ 在 $x∈邻域Dx\in\text{邻域}D$ 中 Lipschitz 连续，则对于任何 $x+d∈Dx+d\in D$ ，有
$\Vert F(x+d)-F(x)-F'(x)d\Vert\le\frac{\gamma}{2}\Vert d\Vert^2\qquad(1.2.77)$
证明：
$F(x+d)-F(x)-F'(x)d=\int_0^1 F'(x+\alpha d)d\cdot d\alpha-F'(x)d\\ \text{ } \\ =\int_0^1[F'(x+\alpha d)-F'(x)]d\cdot d\alpha$
从而，
$\Vert F(x+d)-F(x)-F'(x)d\Vert\le \int_0^1 \Vert F'(x+\alpha d)-F'(x) \Vert \Vert d\Vert d\alpha \\ \text{ } \\ \le\int_0^1 \gamma\Vert\alpha d\Vert\Vert d\Vert d\alpha \\ \text{ } \\ = \gamma\Vert d\Vert^2\int_0^1 \alpha d\alpha=\frac{\gamma}{2}\Vert d \Vert^2 \qquad\square$
定理（1.2.12）给出了用线性模型 $F (x) + F^{'} (x) d$ 作为 $F (x + d)$ 的近似所产生的误差界。类似于定理 1.2.12，我们可以给出用二次模型作为 $f (x + d)$ 的近似所产生的误差界。
定理 1.2.13
设 $f:Rn→Rf:R^n\to R$ 在开凸集 $D⊂RnD\subset R^n$ 上二次连续可微，设 $∇2f(x)\nabla^2f(x)$ 在 $x∈邻域Dx\in\text{邻域}D$ 中 Lipschitz 连续，则对于任何 $x+d∈Dx+d\in D$ ，有
$\left \vert f(x+d)-[f(x)+\nabla f(x)^Td+\frac 12d^T\nabla^2f(x)d]\right\vert \le \frac{\gamma}{2}\Vert d\Vert^3\qquad(1.2.78)$

让我们想起一维函数的泰勒展开，这里有Lipschitz 连续 的约束。

作为定理 1.2.12 的推广，可以得到
定理 1.2.14
设 $F:Rn→RmF:R^n\to R^m$ 在开凸集 $D$ 上连续可微，则对于任何 $x,u,v∈Dx,u,v\in D$ ，有
$\Vert F(u)-F(v)-F'(v)(u-v)\Vert \le\\ \text{ } \\ \text{ } \\ \left[ \sup_{0\le t\le 1} \Vert F'(v+t(u-v))-F'(x)\right]\Vert u-v\Vert\qquad(1.2.79)$
再设 $F^{'}$ 满足 Lipschitz 连续，则有：
$\Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\sigma(u,v)\Vert u-v \Vert \qquad(1.2.80a) \\ \text{ } \\ \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\Vert u-v \Vert \qquad(1.2.80b)$
其中， $σ(u,v)=max⁡{∥u−x∥,∥v−x∥}\sigma(u,v)=\max\{ \Vert u-x\Vert, \Vert v-x\Vert\}$

定理 1.2.15
设 $F, F^{'}$ 满足定理 1.2.14 的条件，假定 $[F′(x)]−1[F'(x)]^{-1}$ 存在，则存在 $ϵ>0,β>α>0\epsilon \gt 0,\beta\gt\alpha\gt 0$ ，使得 $∀u,v∈D\forall u,v\in D$ ，当 $max⁡{∥u−x∥,∥v−x∥}≤ϵ\max \{\Vert u-x\Vert,\Vert v-x\Vert\}\le\epsilon$ 时，有
$\alpha \Vert u-v \Vert \le \Vert F(u)-F(v)\Vert \le \beta\Vert u-v \Vert \qquad(1.2.81)$
证明：
利用三角不等式和（1.2.80b）
$\Vert F(u)-F(v)\Vert\le \Vert F'(x)(u-v)\Vert+\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \le\left[ \Vert F'(x)\Vert+\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \le \left[ \Vert F'(x)\Vert+\gamma\epsilon \right]\Vert u-v\Vert$
令 $β=∥F′(x)∥+γϵ\beta=\Vert F'(x)\Vert +\gamma\epsilon$ ，则有（1.2.81）右边的不等式。
类似的，
$\Vert F(u)-F(v)\Vert\ge \Vert F'(x)(u-v)\Vert-\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \ge\left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \ge \left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\epsilon \right]\Vert u-v\Vert$
因此，如果 $ϵ<1∥[F′(x)]−1∥γ\epsilon\lt\frac{1}{\Vert[F'(x)]^{-1}\Vert\gamma}$ ，则令
$\alpha = \frac{1}{\Vert[F'(x)]^{-1}\Vert}-\gamma\epsilon\gt 0$
便得到（1.2.81）中左边的不等式。
$□\square$

在这段叙述中，我们看到向量值函数若满足 Lipschitz连续 约束，则它的变化（梯度变化）将在某一个范围内，于是就将具有许多有用的推导特性。

1.2.6 有限差分导数

设 $F:Rn→RmF:R^n\to R^m$ ，其 Jacobi 矩阵 $J (x)$ 的第 $(i, j)$ 个分量可以用有限差分
$a_{ij}=\frac{f_i(x+he_j)-f_i(x)}{h} \qquad(1.2.82)$
近似，其中 $f_i(x)$ 表示 $F (x)$ 的第 i 个分量， $e_j$ 表示第 j 个单位向量， $h$ 是一个数，表示步长因子。等价地，如果用 $A⋅jA_{\cdot j}$ 表示 $A$ 的第 j 列，我们有
$A_{\cdot j} = \frac{F(x+he_j)-F(x)}{h} \qquad(1.2.83)$
定理 1.2.16（一次）
设 $F:Rn→RmF:R^n \to R^m$ 满足定理 1.2.12 的条件，又设采用的范数 $∥⋅∥\Vert \cdot \Vert$ 满足 $∥ej∥=1,j=1,⋯ ,n\Vert e_j \Vert=1,j=1,\cdots,n$ ，则
$\Vert A_{\cdot j} - J(x)_{\cdot j}\Vert \le \frac{\gamma}{2}\vert h\vert\qquad(1.2.84)$
如果采用的是 $l_1$ 范数，则：
$\Vert A-J(x) \Vert_1 \le \frac{\gamma}{2}\vert h\vert \qquad(1.2.85)$

定理 1.2.16 反映了 Jacobi矩阵与它的近似之间的误差界。

定理 1.2.17（二次）
设 $F:Rn→RmF:R^n \to R^m$ 满足定理 1.2.13 的条件，又设采用的范数 $∥⋅∥\Vert \cdot \Vert$ 满足 $∥ei∥=1,i=1,⋯ ,n\Vert e_i \Vert=1,i=1,\cdots,n$ ，假定 $x+hei,x−hei∈D,i=1,⋯ ,nx+he_i, x-he_i\in D,i=1,\cdots,n$ ，并设向量 $a∈Rna\in R^n$ ，其分量 $a_i$ 定义为：
$a_i=\frac{f(x+he_i)-f(x-he_i)}{2h}\qquad(1.2.86)$
则
$\vert a_i-[\nabla f(x)]_i\vert \le \frac{\gamma}{6}h^2 \qquad(1.2.87)$
如果所采用的是 $l∞l_{\infty}$ 范数，则
$\Vert a-\nabla f(x)\Vert_{\infty} \le \frac{\gamma}{6}h^2 \qquad(1.2.88)$

定理 1.2.18
设 $f$ 满足定理 1.2.17 的条件，假定 $x,x+hei,x+hej,x+hei+hej∈D,1≤x,y≤nx,x+he_i,x+he_j,x+he_i+he_j\in D,1\le x,y\le n$ 。又设 $A∈Rn×nA\in R^{n\times n}$ ，其分量 $a_{ij}$ 定义为
$a_ij=\frac{f(x+he_i+he_j)-f(x+he_i)-f(x+he_j)+f(x)}{2h^2}\qquad(1.2.90)$
于是
$\vert a_{ij} - [\nabla^2 f(x)]_{ij}\vert \le \frac14 \gamma h\qquad(1.2.91)$
如果所采用的是 $l1,l∞l_1,l_{\infty}$ 或 Frobenius范数，则
$\Vert A-\nabla^2f(x)\Vert \le \frac 14 \gamma hn\qquad(1.2.92)$