以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.2.5 函数和微分
1.2.5 函数和微分
连续函数 f:Rn→Rf:R^n\to Rf:Rn→R 称为在 x∈Rnx\in R^nx∈Rn 连续可微,如果(∂f∂xi)(x)\left( \frac{\partial f}{\partial x_i}\right)(x)(∂xi∂f)(x) 存在且连续,i=1,2,⋯ ,ni=1,2,\cdots,ni=1,2,⋯,n,fff 在 xxx 处的梯度定义为:
∇f(x)=[∂f∂x1(x),⋯ ,∂f∂xn(x)]T
\nabla f(x)=\left[\frac{\partial f}{\partial x_1}(x),\cdots, \frac{\partial f}{\partial x_n}(x)\right]^T
∇f(x)=[∂x1∂f(x),⋯,∂xn∂f(x)]T
如果 fff 在开集 D⊂RnD\subset R^nD⊂Rn 中的每一点连续可微,则称 fff 在 DDD 中连续可微,记作 f∈C1(D)f\in C^1(D)f∈C1(D)。
连续可微函数 f:Rn→Rf:R^n\to Rf:Rn→R 称为在 xxx 二次连续可微,如果 ∂2f∂xi∂xj(x)\frac{\partial^2f}{\partial x_i \partial x_j}(x)∂xi∂xj∂2f(x) 存在且连续,1≤i,j≤n1\le i, j\le n1≤i,j≤n。fff 在 xxx 处的 Hesse 矩阵定义为 n×nn\times nn×n 矩阵,其 i,ji,ji,j 元素为:
[∇2f(x)]ij=∂2f(x)∂xi∂xj,1≤i,j≤n
\left[\nabla^2f(x) \right]_{ij}=\frac{\partial^2f(x)}{\partial x_i \partial x_j},\quad 1\le i,j\le n
[∇2f(x)]ij=∂xi∂xj∂2f(x),1≤i,j≤n
如果 fff 在开集 D⊂RnD\subset R^nD⊂Rn 中的每一点二次连续可微,则称 fff 在 D⊂RnD\subset R^nD⊂Rn 中二次连续可微,记作 f∈C2(D)f\in C^2(D)f∈C2(D)。
设 f:Rn→Rf:R^n\to Rf:Rn→R 在开集 D⊂RnD\subset R^nD⊂Rn 上连续可微,对于 x∈Rn,d∈Rnx\in R^n,d\in R^nx∈Rn,d∈Rn,fff 在 xxx 点关于 ddd 的方向导数定义为:
∂f∂d(x)=limθ→0f(x+θd)−f(x)θ(1.2.66)
\frac{\partial f}{\partial d}(x)=\lim_{\theta\to 0} \frac{f(x+\theta d)-f(x)}{\theta}\qquad(1.2.66)
∂d∂f(x)=θ→0limθf(x+θd)−f(x)(1.2.66)
该方向导数等于 ∇f(x)Td\nabla f(x)^Td∇f(x)Td,其中,∇f(x)\nabla f(x)∇f(x) 表示 fff 在 xxx 的梯度,它是 fff 的导数 f′(x)f'(x)f′(x) 的转置,是 n×1n \times 1n×1 向量。
对任何 x,x+d∈Dx,x+d\in Dx,x+d∈D,或 x,y∈Dx,y\in Dx,y∈D,若 f:Rn→Rf:R^n\to Rf:Rn→R 在开凸集 DDD 上连续可微,则有:
f(x+d)=f(x)+∫01∇f(x+td)Td⋅dt =f(x)+∫xx+d∇f(ξ)dξ(1.2.67)
f(x+d)=f(x)+\int^1_0 \nabla f(x+td)^Td\cdot dt\\ \text{ }\\
=f(x)+\int_x^{x+d}\nabla f(\xi)d\xi \qquad(1.2.67)
f(x+d)=f(x)+∫01∇f(x+td)Td⋅dt =f(x)+∫xx+d∇f(ξ)dξ(1.2.67)
因而也有
f(x+d)=f(x)+∇f(ξ)Td,ξ∈(x,x+d)(1.2.68a)
f(x+d)=f(x)+\nabla f(\xi)^Td,\quad \xi\in(x,x+d) \qquad(1.2.68a)
f(x+d)=f(x)+∇f(ξ)Td,ξ∈(x,x+d)(1.2.68a)
或
f(y)=f(x)+∇f(x+t(y−x))T(y−x),t∈(0,1)(1.2.68b)
f(y)=f(x)+\nabla f(x+t(y-x))^T(y-x), \quad t\in (0,1) \qquad(1.2.68b)
f(y)=f(x)+∇f(x+t(y−x))T(y−x),t∈(0,1)(1.2.68b)
或
f(y)=f(x)+∇f(x)T(y−x)+o(∥y−x∥),t∈(0,1)(1.2.68c)
f(y)=f(x)+\nabla f(x)^T(y-x)+o(\Vert y-x \Vert), \quad t\in (0,1) \qquad(1.2.68c)
f(y)=f(x)+∇f(x)T(y−x)+o(∥y−x∥),t∈(0,1)(1.2.68c)
这是多维 RnR^nRn 空间中可微函数的中值定理。
设 f:Rn→Rf:R^n\to Rf:Rn→R 在开集 D⊂RnD\subset R^nD⊂Rn 上二次连续可微,对于 x∈Rn,d∈Rnx\in R^n, d\in R^nx∈Rn,d∈Rn,fff 在 xxx 关于方向 ddd 的二阶方向导数定义为:
∂2f∂d2(x)=limθ→0∂f∂d(x+θd)−∂f∂d(x)θ(1.2.69)
\frac{\partial^2f}{\partial d^2}(x)=\lim_{\theta \to 0}\frac{\frac{\partial f}{\partial d}(x+\theta d)-\frac{\partial f}{\partial d}(x)}{\theta} \qquad(1.2.69)
∂d2∂2f(x)=θ→0limθ∂d∂f(x+θd)−∂d∂f(x)(1.2.69)
上述定义的二阶方向导数等于 dT∇2f(x)dd^T\nabla^2f(x)ddT∇2f(x)d,其中 ∇2f(x)\nabla^2f(x)∇2f(x) 表示 fff 在 xxx 的 Hesse 矩阵。对于任何 x,x+d∈Dx,x+d\in Dx,x+d∈D,存在 ξ∈(x,x+d)\xi \in (x,x+d)ξ∈(x,x+d),使得:
f(x+d)=f(x)+∇f(x)Td+12dT∇2f(ξ)d(1.2.70)
f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(\xi)d\qquad(1.2.70)
f(x+d)=f(x)+∇f(x)Td+21dT∇2f(ξ)d(1.2.70)
或
f(x+d)=f(x)+∇f(x)Td+12dT∇2f(x)d+o(∥d∥2)(1.2.71)
f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x)d+o(\Vert d\Vert^2)\qquad(1.2.71)
f(x+d)=f(x)+∇f(x)Td+21dT∇2f(x)d+o(∥d∥2)(1.2.71)
由此,我们也有
∣f(y)−f(x)∣≤∥y−x∥supξ∈L(x,y)∥f′(ξ)∥(1.2.72) ∣f(y)−f(x)−f′(x0)(y−x)∣≤∥y−x∥supξ∈L(x,y)∥f′(ξ)−f′(x0)∥(1.2.73)
\vert f(y)-f(x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)\Vert\qquad(1.2.72)\\ \text{ } \\
\vert f(y)-f(x)-f'(x_0)(y-x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)-f'(x_0)\Vert\qquad(1.2.73)
∣f(y)−f(x)∣≤∥y−x∥ξ∈L(x,y)sup∥f′(ξ)∥(1.2.72) ∣f(y)−f(x)−f′(x0)(y−x)∣≤∥y−x∥ξ∈L(x,y)sup∥f′(ξ)−f′(x0)∥(1.2.73)
其中,L(x,y)L(x,y)L(x,y) 表示 xxx 和 yyy 的连接线段,ξ=x+t(y−x),0≤t≤1\xi=x+t(y-x),0\le t\le 1ξ=x+t(y−x),0≤t≤1.
上述中值定理,为函数的近似提供了方法。
设 h:Rn→R,g:Rm→R,f:Rn→Rmh:R^n \to R,g:R^m \to R,f:R^n \to R^mh:Rn→R,g:Rm→R,f:Rn→Rm,并设 f∈C1(D),g∈C1(D),h(x0)=g(f(x0))f\in C^1(D),g\in C^1(D),h(x_0)=g(f(x_0))f∈C1(D),g∈C1(D),h(x0)=g(f(x0)),则链式法则为:
h′(x0)=g′(f(x0))f′(x0)(1.2.74a)
h'(x_0)=g'(f(x_0))f'(x_0)\qquad(1.2.74a)
h′(x0)=g′(f(x0))f′(x0)(1.2.74a)
其中 f′(x0)f'(x_0)f′(x0) 是 m×nm\times nm×n 矩阵,即
f′(x0)=[∂fi(x)∂xj]m×n
f'(x_0)=\left[ \frac{\partial f_i(x)}{\partial x_j} \right]_{m\times n}
f′(x0)=[∂xj∂fi(x)]m×n
有
h′′(x0)=∇f(x0)T∇2g[f(x0)]∇f(x0)+∑i=1m∂g[f(x0)]∂fi[fi(x0)]′′(1.2.74b)
h''(x_0)=\nabla f(x_0)^T \nabla^2 g[f(x_0)]\nabla f(x_0)+\sum^m_{i=1}\frac{\partial g[f(x_0)]}{\partial f_i}[f_i(x_0)]''\qquad(1.2.74b)
h′′(x0)=∇f(x0)T∇2g[f(x0)]∇f(x0)+i=1∑m∂fi∂g[f(x0)][fi(x0)]′′(1.2.74b)
(1.2.74b)式较复杂,不知在实际应用中有没有用到的。
下面给出向量值函数的微分基础(即函数值是一个向量)。
连续函数 F:Rn→RmF:R^n\to R^mF:Rn→Rm 在 x∈Rnx\in R^nx∈Rn 连续可微,如果其每一个分量 fi,(i=1,⋯ ,m)f_i,(i=1,\cdots,m)fi,(i=1,⋯,m),在 xxx 连续可微。FFF 在 xxx 的导数 F′(x)∈Rm×nF'(x)\in R^{m\times n}F′(x)∈Rm×n 叫做 FFF 在 xxx 的 Jacobi 矩阵,它的转置叫 FFF 在 xxx 的梯度,即:
F′(x)=J(x)=∇F(x)T
F'(x)=J(x)=\nabla F(x)^T
F′(x)=J(x)=∇F(x)T
Jacobi 矩阵的第 i,j 元素为:
[F′(x)]ij=[J(x)]ij=∂fi∂xj(x),i=1,⋯ ,m,j=1,⋯ ,n
[F'(x)]_{ij}=[J(x)]_{ij}=\frac{\partial f_i}{\partial x_j}(x), \quad i=1,\cdots,m, j=1,\cdots,n
[F′(x)]ij=[J(x)]ij=∂xj∂fi(x),i=1,⋯,m,j=1,⋯,n
若 F:Rn→RmF:R^n\to R^mF:Rn→Rm 在开凸集 DDD 上连续可微,则对于任何 x,x+d∈Rnx,x+d\in R^nx,x+d∈Rn,有
F(x+d)−F(x)=∫01J(x+td)d⋅dt=∫xx+dF′(ξ)dξ(1.2.75)
F(x+d)-F(x)=\int_0^1 J(x+td)d\cdot dt = \int_x^{x+d} F'(\xi)d\xi \qquad(1.2.75)
F(x+d)−F(x)=∫01J(x+td)d⋅dt=∫xx+dF′(ξ)dξ(1.2.75)
对比式(1.2.67),两者的形式是一样的。
定义 1.2.11
G:Rn→Rm×nG:R^n\to R^{m\times n}G:Rn→Rm×n 在 x∈D⊂Rnx\in D\subset R^nx∈D⊂Rn 上称为 Lipschitz 连续,如果 ∀v∈D\forall v\in D∀v∈D,
∥G(v)−G(x)∥≤γ∥v−x∥,(1.2.76)
\Vert G(v)-G(x)\Vert\le \gamma\Vert v-x\Vert,\qquad(1.2.76)
∥G(v)−G(x)∥≤γ∥v−x∥,(1.2.76)
其中 γ\gammaγ 称为 Lipschitz 常数。如果 x∈D⊂Rnx\in D\subset R^nx∈D⊂Rn,(1.2.76)成立,则称 GGG 在 DDD 上 Lipschitz 连续,记作 G∈Lipγ(D)G\in Lip_{\gamma}(D)G∈Lipγ(D)。
Lipschitz 连续,常出现,比如在:Wasserstein GAN 中要求,判别器的网络参数满足Lipschitz 连续要求。
定理 1.2.12
设 F:Rn→Rm×nF:R^n\to R^{m\times n}F:Rn→Rm×n 在开凸集 DDD 上连续可微,F′F'F′ 在 x∈邻域Dx\in\text{邻域}Dx∈邻域D 中 Lipschitz 连续,则对于任何 x+d∈Dx+d\in Dx+d∈D,有
∥F(x+d)−F(x)−F′(x)d∥≤γ2∥d∥2(1.2.77)
\Vert F(x+d)-F(x)-F'(x)d\Vert\le\frac{\gamma}{2}\Vert d\Vert^2\qquad(1.2.77)
∥F(x+d)−F(x)−F′(x)d∥≤2γ∥d∥2(1.2.77)
证明:
F(x+d)−F(x)−F′(x)d=∫01F′(x+αd)d⋅dα−F′(x)d =∫01[F′(x+αd)−F′(x)]d⋅dα
F(x+d)-F(x)-F'(x)d=\int_0^1 F'(x+\alpha d)d\cdot d\alpha-F'(x)d\\ \text{ } \\ =\int_0^1[F'(x+\alpha d)-F'(x)]d\cdot d\alpha
F(x+d)−F(x)−F′(x)d=∫01F′(x+αd)d⋅dα−F′(x)d =∫01[F′(x+αd)−F′(x)]d⋅dα
从而,
∥F(x+d)−F(x)−F′(x)d∥≤∫01∥F′(x+αd)−F′(x)∥∥d∥dα ≤∫01γ∥αd∥∥d∥dα =γ∥d∥2∫01αdα=γ2∥d∥2□
\Vert F(x+d)-F(x)-F'(x)d\Vert\le \int_0^1 \Vert F'(x+\alpha d)-F'(x) \Vert \Vert d\Vert d\alpha \\ \text{ } \\ \le\int_0^1 \gamma\Vert\alpha d\Vert\Vert d\Vert d\alpha \\ \text{ } \\ = \gamma\Vert d\Vert^2\int_0^1 \alpha d\alpha=\frac{\gamma}{2}\Vert d \Vert^2 \qquad\square
∥F(x+d)−F(x)−F′(x)d∥≤∫01∥F′(x+αd)−F′(x)∥∥d∥dα ≤∫01γ∥αd∥∥d∥dα =γ∥d∥2∫01αdα=2γ∥d∥2□
定理(1.2.12)给出了用线性模型 F(x)+F′(x)dF(x)+F'(x)dF(x)+F′(x)d 作为 F(x+d)F(x+d)F(x+d) 的近似所产生的误差界。类似于定理 1.2.12,我们可以给出用二次模型作为 f(x+d)f(x+d)f(x+d) 的近似所产生的误差界。
定理 1.2.13
设 f:Rn→Rf:R^n\to Rf:Rn→R 在开凸集 D⊂RnD\subset R^nD⊂Rn 上二次连续可微,设 ∇2f(x)\nabla^2f(x)∇2f(x) 在 x∈邻域Dx\in\text{邻域}Dx∈邻域D 中 Lipschitz 连续,则对于任何 x+d∈Dx+d\in Dx+d∈D,有
∣f(x+d)−[f(x)+∇f(x)Td+12dT∇2f(x)d]∣≤γ2∥d∥3(1.2.78)
\left \vert f(x+d)-[f(x)+\nabla f(x)^Td+\frac 12d^T\nabla^2f(x)d]\right\vert \le \frac{\gamma}{2}\Vert d\Vert^3\qquad(1.2.78)
∣∣∣∣f(x+d)−[f(x)+∇f(x)Td+21dT∇2f(x)d]∣∣∣∣≤2γ∥d∥3(1.2.78)
让我们想起一维函数的泰勒展开,这里有Lipschitz 连续 的约束。
作为定理 1.2.12 的推广,可以得到
定理 1.2.14
设 F:Rn→RmF:R^n\to R^mF:Rn→Rm 在开凸集 DDD 上连续可微,则对于任何 x,u,v∈Dx,u,v\in Dx,u,v∈D,有
∥F(u)−F(v)−F′(v)(u−v)∥≤ [sup0≤t≤1∥F′(v+t(u−v))−F′(x)]∥u−v∥(1.2.79)
\Vert F(u)-F(v)-F'(v)(u-v)\Vert \le\\ \text{ } \\ \text{ } \\
\left[ \sup_{0\le t\le 1} \Vert F'(v+t(u-v))-F'(x)\right]\Vert u-v\Vert\qquad(1.2.79)
∥F(u)−F(v)−F′(v)(u−v)∥≤ [0≤t≤1sup∥F′(v+t(u−v))−F′(x)]∥u−v∥(1.2.79)
再设 F′F'F′ 满足 Lipschitz 连续,则有:
∥F(u)−F(v)−F′(v)(u−v)∥≤γσ(u,v)∥u−v∥(1.2.80a) ∥F(u)−F(v)−F′(v)(u−v)∥≤γ∥u−x∥+∥x−v∥2∥u−v∥(1.2.80b)
\Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\sigma(u,v)\Vert u-v \Vert \qquad(1.2.80a) \\ \text{ } \\ \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\Vert u-v \Vert \qquad(1.2.80b)
∥F(u)−F(v)−F′(v)(u−v)∥≤γσ(u,v)∥u−v∥(1.2.80a) ∥F(u)−F(v)−F′(v)(u−v)∥≤γ2∥u−x∥+∥x−v∥∥u−v∥(1.2.80b)
其中,σ(u,v)=max{∥u−x∥,∥v−x∥}\sigma(u,v)=\max\{ \Vert u-x\Vert, \Vert v-x\Vert\}σ(u,v)=max{∥u−x∥,∥v−x∥}
定理 1.2.15
设 F,F′F,F'F,F′ 满足定理 1.2.14 的条件,假定 [F′(x)]−1[F'(x)]^{-1}[F′(x)]−1 存在,则存在 ϵ>0,β>α>0\epsilon \gt 0,\beta\gt\alpha\gt 0ϵ>0,β>α>0,使得 ∀u,v∈D\forall u,v\in D∀u,v∈D,当 max{∥u−x∥,∥v−x∥}≤ϵ\max \{\Vert u-x\Vert,\Vert v-x\Vert\}\le\epsilonmax{∥u−x∥,∥v−x∥}≤ϵ 时,有
α∥u−v∥≤∥F(u)−F(v)∥≤β∥u−v∥(1.2.81)
\alpha \Vert u-v \Vert \le \Vert F(u)-F(v)\Vert \le \beta\Vert u-v \Vert \qquad(1.2.81)
α∥u−v∥≤∥F(u)−F(v)∥≤β∥u−v∥(1.2.81)
证明:
利用三角不等式和(1.2.80b)
∥F(u)−F(v)∥≤∥F′(x)(u−v)∥+∥F(u)−F(v)−F′(v)(u−v)∥ ≤[∥F′(x)∥+γ∥u−x∥+∥x−v∥2]∥u−v∥ ≤[∥F′(x)∥+γϵ]∥u−v∥
\Vert F(u)-F(v)\Vert\le \Vert F'(x)(u-v)\Vert+\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \le\left[ \Vert F'(x)\Vert+\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \le \left[ \Vert F'(x)\Vert+\gamma\epsilon \right]\Vert u-v\Vert
∥F(u)−F(v)∥≤∥F′(x)(u−v)∥+∥F(u)−F(v)−F′(v)(u−v)∥ ≤[∥F′(x)∥+γ2∥u−x∥+∥x−v∥]∥u−v∥ ≤[∥F′(x)∥+γϵ]∥u−v∥
令 β=∥F′(x)∥+γϵ\beta=\Vert F'(x)\Vert +\gamma\epsilonβ=∥F′(x)∥+γϵ,则有(1.2.81)右边的不等式。
类似的,
∥F(u)−F(v)∥≥∥F′(x)(u−v)∥−∥F(u)−F(v)−F′(v)(u−v)∥ ≥[1/∥F′(x)∥−1−γ∥u−x∥+∥x−v∥2]∥u−v∥ ≥[1/∥F′(x)∥−1−γϵ]∥u−v∥
\Vert F(u)-F(v)\Vert\ge \Vert F'(x)(u-v)\Vert-\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \ge\left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \ge \left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\epsilon \right]\Vert u-v\Vert
∥F(u)−F(v)∥≥∥F′(x)(u−v)∥−∥F(u)−F(v)−F′(v)(u−v)∥ ≥[1/∥F′(x)∥−1−γ2∥u−x∥+∥x−v∥]∥u−v∥ ≥[1/∥F′(x)∥−1−γϵ]∥u−v∥
因此,如果 ϵ<1∥[F′(x)]−1∥γ\epsilon\lt\frac{1}{\Vert[F'(x)]^{-1}\Vert\gamma}ϵ<∥[F′(x)]−1∥γ1,则令
α=1∥[F′(x)]−1∥−γϵ>0
\alpha = \frac{1}{\Vert[F'(x)]^{-1}\Vert}-\gamma\epsilon\gt 0
α=∥[F′(x)]−1∥1−γϵ>0
便得到(1.2.81)中左边的不等式。
□\square□
在这段叙述中,我们看到向量值函数若满足 Lipschitz连续 约束,则它的变化(梯度变化)将在某一个范围内,于是就将具有许多有用的推导特性。
1.2.6 有限差分导数
设 F:Rn→RmF:R^n\to R^mF:Rn→Rm,其 Jacobi 矩阵 J(x)J(x)J(x) 的第 (i,j)(i,j)(i,j) 个分量可以用有限差分
aij=fi(x+hej)−fi(x)h(1.2.82)
a_{ij}=\frac{f_i(x+he_j)-f_i(x)}{h} \qquad(1.2.82)
aij=hfi(x+hej)−fi(x)(1.2.82)
近似,其中 fi(x)f_i(x)fi(x) 表示 F(x)F(x)F(x) 的第 i 个分量,eje_jej 表示第 j 个单位向量,hhh 是一个数,表示步长因子。等价地,如果用 A⋅jA_{\cdot j}A⋅j 表示 AAA 的第 j 列,我们有
A⋅j=F(x+hej)−F(x)h(1.2.83)
A_{\cdot j} = \frac{F(x+he_j)-F(x)}{h} \qquad(1.2.83)
A⋅j=hF(x+hej)−F(x)(1.2.83)
定理 1.2.16(一次)
设 F:Rn→RmF:R^n \to R^mF:Rn→Rm 满足定理 1.2.12 的条件,又设采用的范数 ∥⋅∥\Vert \cdot \Vert∥⋅∥ 满足 ∥ej∥=1,j=1,⋯ ,n\Vert e_j \Vert=1,j=1,\cdots,n∥ej∥=1,j=1,⋯,n,则
∥A⋅j−J(x)⋅j∥≤γ2∣h∣(1.2.84)
\Vert A_{\cdot j} - J(x)_{\cdot j}\Vert \le \frac{\gamma}{2}\vert h\vert\qquad(1.2.84)
∥A⋅j−J(x)⋅j∥≤2γ∣h∣(1.2.84)
如果采用的是 l1l_1l1 范数,则:
∥A−J(x)∥1≤γ2∣h∣(1.2.85)
\Vert A-J(x) \Vert_1 \le \frac{\gamma}{2}\vert h\vert \qquad(1.2.85)
∥A−J(x)∥1≤2γ∣h∣(1.2.85)
定理 1.2.16 反映了 Jacobi矩阵 与它的近似之间的误差界。
定理 1.2.17(二次)
设 F:Rn→RmF:R^n \to R^mF:Rn→Rm 满足定理 1.2.13 的条件,又设采用的范数 ∥⋅∥\Vert \cdot \Vert∥⋅∥ 满足 ∥ei∥=1,i=1,⋯ ,n\Vert e_i \Vert=1,i=1,\cdots,n∥ei∥=1,i=1,⋯,n,假定 x+hei,x−hei∈D,i=1,⋯ ,nx+he_i, x-he_i\in D,i=1,\cdots,nx+hei,x−hei∈D,i=1,⋯,n,并设向量 a∈Rna\in R^na∈Rn,其分量 aia_iai 定义为:
ai=f(x+hei)−f(x−hei)2h(1.2.86)
a_i=\frac{f(x+he_i)-f(x-he_i)}{2h}\qquad(1.2.86)
ai=2hf(x+hei)−f(x−hei)(1.2.86)
则
∣ai−[∇f(x)]i∣≤γ6h2(1.2.87)
\vert a_i-[\nabla f(x)]_i\vert \le \frac{\gamma}{6}h^2 \qquad(1.2.87)
∣ai−[∇f(x)]i∣≤6γh2(1.2.87)
如果所采用的是 l∞l_{\infty}l∞ 范数,则
∥a−∇f(x)∥∞≤γ6h2(1.2.88)
\Vert a-\nabla f(x)\Vert_{\infty} \le \frac{\gamma}{6}h^2 \qquad(1.2.88)
∥a−∇f(x)∥∞≤6γh2(1.2.88)
定理 1.2.18
设 fff 满足定理 1.2.17 的条件,假定 x,x+hei,x+hej,x+hei+hej∈D,1≤x,y≤nx,x+he_i,x+he_j,x+he_i+he_j\in D,1\le x,y\le nx,x+hei,x+hej,x+hei+hej∈D,1≤x,y≤n。又设 A∈Rn×nA\in R^{n\times n}A∈Rn×n,其分量 aija_{ij}aij 定义为
aij=f(x+hei+hej)−f(x+hei)−f(x+hej)+f(x)2h2(1.2.90)
a_ij=\frac{f(x+he_i+he_j)-f(x+he_i)-f(x+he_j)+f(x)}{2h^2}\qquad(1.2.90)
aij=2h2f(x+hei+hej)−f(x+hei)−f(x+hej)+f(x)(1.2.90)
于是
∣aij−[∇2f(x)]ij∣≤14γh(1.2.91)
\vert a_{ij} - [\nabla^2 f(x)]_{ij}\vert \le \frac14 \gamma h\qquad(1.2.91)
∣aij−[∇2f(x)]ij∣≤41γh(1.2.91)
如果所采用的是 l1,l∞l_1,l_{\infty}l1,l∞ 或 Frobenius范数,则
∥A−∇2f(x)∥≤14γhn(1.2.92)
\Vert A-\nabla^2f(x)\Vert \le \frac 14 \gamma hn\qquad(1.2.92)
∥A−∇2f(x)∥≤41γhn(1.2.92)
本文深入探讨了最优化理论中的关键概念,包括函数连续性、可微性及二次可微性的定义,介绍了梯度、Hesse矩阵、方向导数、链式法则等核心数学工具,以及中值定理在函数近似中的应用。此外,还讨论了向量值函数的微分基础,Lipschitz连续性及其在误差界估计中的作用。
4877

被折叠的 条评论
为什么被折叠?



