抄书——最优化的理论与方法(5)——数学基础(函数和微分)

本文深入探讨了最优化理论中的关键概念,包括函数连续性、可微性及二次可微性的定义,介绍了梯度、Hesse矩阵、方向导数、链式法则等核心数学工具,以及中值定理在函数近似中的应用。此外,还讨论了向量值函数的微分基础,Lipschitz连续性及其在误差界估计中的作用。

以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.2.5 函数和微分


1.2.5 函数和微分

连续函数 f:Rn→Rf:R^n\to Rf:RnR 称为在 x∈Rnx\in R^nxRn 连续可微,如果(∂f∂xi)(x)\left( \frac{\partial f}{\partial x_i}\right)(x)(xif)(x) 存在且连续,i=1,2,⋯ ,ni=1,2,\cdots,ni=1,2,,nfffxxx 处的梯度定义为:
∇f(x)=[∂f∂x1(x),⋯ ,∂f∂xn(x)]T \nabla f(x)=\left[\frac{\partial f}{\partial x_1}(x),\cdots, \frac{\partial f}{\partial x_n}(x)\right]^T f(x)=[x1f(x),,xnf(x)]T
如果 fff 在开集 D⊂RnD\subset R^nDRn 中的每一点连续可微,则称 fffDDD 中连续可微,记作 f∈C1(D)f\in C^1(D)fC1(D)
连续可微函数 f:Rn→Rf:R^n\to Rf:RnR 称为在 xxx 二次连续可微,如果 ∂2f∂xi∂xj(x)\frac{\partial^2f}{\partial x_i \partial x_j}(x)xixj2f(x) 存在且连续,1≤i,j≤n1\le i, j\le n1i,jnfffxxx 处的 Hesse 矩阵定义为 n×nn\times nn×n 矩阵,其 i,ji,ji,j 元素为:
[∇2f(x)]ij=∂2f(x)∂xi∂xj,1≤i,j≤n \left[\nabla^2f(x) \right]_{ij}=\frac{\partial^2f(x)}{\partial x_i \partial x_j},\quad 1\le i,j\le n [2f(x)]ij=xixj2f(x),1i,jn
如果 fff 在开集 D⊂RnD\subset R^nDRn 中的每一点二次连续可微,则称 fffD⊂RnD\subset R^nDRn 中二次连续可微,记作 f∈C2(D)f\in C^2(D)fC2(D)
f:Rn→Rf:R^n\to Rf:RnR 在开集 D⊂RnD\subset R^nDRn 上连续可微,对于 x∈Rn,d∈Rnx\in R^n,d\in R^nxRn,dRnfffxxx 点关于 ddd方向导数定义为:
∂f∂d(x)=lim⁡θ→0f(x+θd)−f(x)θ(1.2.66) \frac{\partial f}{\partial d}(x)=\lim_{\theta\to 0} \frac{f(x+\theta d)-f(x)}{\theta}\qquad(1.2.66) df(x)=θ0limθf(x+θd)f(x)(1.2.66)
该方向导数等于 ∇f(x)Td\nabla f(x)^Tdf(x)Td,其中,∇f(x)\nabla f(x)f(x) 表示 fffxxx 的梯度,它是 fff 的导数 f′(x)f'(x)f(x) 的转置,是 n×1n \times 1n×1 向量。
对任何 x,x+d∈Dx,x+d\in Dx,x+dD,或 x,y∈Dx,y\in Dx,yD,若 f:Rn→Rf:R^n\to Rf:RnR 在开凸集 DDD 上连续可微,则有:
f(x+d)=f(x)+∫01∇f(x+td)Td⋅dt =f(x)+∫xx+d∇f(ξ)dξ(1.2.67) f(x+d)=f(x)+\int^1_0 \nabla f(x+td)^Td\cdot dt\\ \text{ }\\ =f(x)+\int_x^{x+d}\nabla f(\xi)d\xi \qquad(1.2.67) f(x+d)=f(x)+01f(x+td)Tddt =f(x)+xx+df(ξ)dξ(1.2.67)
因而也有
f(x+d)=f(x)+∇f(ξ)Td,ξ∈(x,x+d)(1.2.68a) f(x+d)=f(x)+\nabla f(\xi)^Td,\quad \xi\in(x,x+d) \qquad(1.2.68a) f(x+d)=f(x)+f(ξ)Td,ξ(x,x+d)(1.2.68a)

f(y)=f(x)+∇f(x+t(y−x))T(y−x),t∈(0,1)(1.2.68b) f(y)=f(x)+\nabla f(x+t(y-x))^T(y-x), \quad t\in (0,1) \qquad(1.2.68b) f(y)=f(x)+f(x+t(yx))T(yx),t(0,1)(1.2.68b)

f(y)=f(x)+∇f(x)T(y−x)+o(∥y−x∥),t∈(0,1)(1.2.68c) f(y)=f(x)+\nabla f(x)^T(y-x)+o(\Vert y-x \Vert), \quad t\in (0,1) \qquad(1.2.68c) f(y)=f(x)+f(x)T(yx)+o(yx),t(0,1)(1.2.68c)


这是多维 RnR^nRn 空间中可微函数的中值定理。


f:Rn→Rf:R^n\to Rf:RnR 在开集 D⊂RnD\subset R^nDRn 上二次连续可微,对于 x∈Rn,d∈Rnx\in R^n, d\in R^nxRn,dRnfffxxx 关于方向 ddd 的二阶方向导数定义为:
∂2f∂d2(x)=lim⁡θ→0∂f∂d(x+θd)−∂f∂d(x)θ(1.2.69) \frac{\partial^2f}{\partial d^2}(x)=\lim_{\theta \to 0}\frac{\frac{\partial f}{\partial d}(x+\theta d)-\frac{\partial f}{\partial d}(x)}{\theta} \qquad(1.2.69) d22f(x)=θ0limθdf(x+θd)df(x)(1.2.69)
上述定义的二阶方向导数等于 dT∇2f(x)dd^T\nabla^2f(x)ddT2f(x)d,其中 ∇2f(x)\nabla^2f(x)2f(x) 表示 fffxxx 的 Hesse 矩阵。对于任何 x,x+d∈Dx,x+d\in Dx,x+dD,存在 ξ∈(x,x+d)\xi \in (x,x+d)ξ(x,x+d),使得:
f(x+d)=f(x)+∇f(x)Td+12dT∇2f(ξ)d(1.2.70) f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(\xi)d\qquad(1.2.70) f(x+d)=f(x)+f(x)Td+21dT2f(ξ)d(1.2.70)

f(x+d)=f(x)+∇f(x)Td+12dT∇2f(x)d+o(∥d∥2)(1.2.71) f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x)d+o(\Vert d\Vert^2)\qquad(1.2.71) f(x+d)=f(x)+f(x)Td+21dT2f(x)d+o(d2)(1.2.71)
由此,我们也有
∣f(y)−f(x)∣≤∥y−x∥sup⁡ξ∈L(x,y)∥f′(ξ)∥(1.2.72) ∣f(y)−f(x)−f′(x0)(y−x)∣≤∥y−x∥sup⁡ξ∈L(x,y)∥f′(ξ)−f′(x0)∥(1.2.73) \vert f(y)-f(x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)\Vert\qquad(1.2.72)\\ \text{ } \\ \vert f(y)-f(x)-f'(x_0)(y-x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)-f'(x_0)\Vert\qquad(1.2.73) f(y)f(x)yxξL(x,y)supf(ξ)(1.2.72) f(y)f(x)f(x0)(yx)yxξL(x,y)supf(ξ)f(x0)(1.2.73)
其中,L(x,y)L(x,y)L(x,y) 表示 xxxyyy连接线段ξ=x+t(y−x),0≤t≤1\xi=x+t(y-x),0\le t\le 1ξ=x+t(yx),0t1.


上述中值定理,为函数的近似提供了方法。


h:Rn→R,g:Rm→R,f:Rn→Rmh:R^n \to R,g:R^m \to R,f:R^n \to R^mh:RnR,g:RmR,f:RnRm,并设 f∈C1(D),g∈C1(D),h(x0)=g(f(x0))f\in C^1(D),g\in C^1(D),h(x_0)=g(f(x_0))fC1(D),gC1(D),h(x0)=g(f(x0)),则链式法则为:
h′(x0)=g′(f(x0))f′(x0)(1.2.74a) h'(x_0)=g'(f(x_0))f'(x_0)\qquad(1.2.74a) h(x0)=g(f(x0))f(x0)(1.2.74a)
其中 f′(x0)f'(x_0)f(x0)m×nm\times nm×n 矩阵,即
f′(x0)=[∂fi(x)∂xj]m×n f'(x_0)=\left[ \frac{\partial f_i(x)}{\partial x_j} \right]_{m\times n} f(x0)=[xjfi(x)]m×n

h′′(x0)=∇f(x0)T∇2g[f(x0)]∇f(x0)+∑i=1m∂g[f(x0)]∂fi[fi(x0)]′′(1.2.74b) h''(x_0)=\nabla f(x_0)^T \nabla^2 g[f(x_0)]\nabla f(x_0)+\sum^m_{i=1}\frac{\partial g[f(x_0)]}{\partial f_i}[f_i(x_0)]''\qquad(1.2.74b) h(x0)=f(x0)T2g[f(x0)]f(x0)+i=1mfig[f(x0)][fi(x0)](1.2.74b)


(1.2.74b)式较复杂,不知在实际应用中有没有用到的。


下面给出向量值函数的微分基础(即函数值是一个向量)。
连续函数 F:Rn→RmF:R^n\to R^mF:RnRmx∈Rnx\in R^nxRn 连续可微,如果其每一个分量 fi,(i=1,⋯ ,m)f_i,(i=1,\cdots,m)fi,(i=1,,m),在 xxx 连续可微。FFFxxx 的导数 F′(x)∈Rm×nF'(x)\in R^{m\times n}F(x)Rm×n 叫做 FFFxxxJacobi 矩阵,它的转置叫 FFFxxx梯度,即:
F′(x)=J(x)=∇F(x)T F'(x)=J(x)=\nabla F(x)^T F(x)=J(x)=F(x)T
Jacobi 矩阵的第 i,j 元素为:
[F′(x)]ij=[J(x)]ij=∂fi∂xj(x),i=1,⋯ ,m,j=1,⋯ ,n [F'(x)]_{ij}=[J(x)]_{ij}=\frac{\partial f_i}{\partial x_j}(x), \quad i=1,\cdots,m, j=1,\cdots,n [F(x)]ij=[J(x)]ij=xjfi(x),i=1,,m,j=1,,n
F:Rn→RmF:R^n\to R^mF:RnRm 在开凸集 DDD 上连续可微,则对于任何 x,x+d∈Rnx,x+d\in R^nx,x+dRn,有
F(x+d)−F(x)=∫01J(x+td)d⋅dt=∫xx+dF′(ξ)dξ(1.2.75) F(x+d)-F(x)=\int_0^1 J(x+td)d\cdot dt = \int_x^{x+d} F'(\xi)d\xi \qquad(1.2.75) F(x+d)F(x)=01J(x+td)ddt=xx+dF(ξ)dξ(1.2.75)


对比式(1.2.67),两者的形式是一样的。


定义 1.2.11
G:Rn→Rm×nG:R^n\to R^{m\times n}G:RnRm×nx∈D⊂Rnx\in D\subset R^nxDRn 上称为 Lipschitz 连续,如果 ∀v∈D\forall v\in DvD
∥G(v)−G(x)∥≤γ∥v−x∥,(1.2.76) \Vert G(v)-G(x)\Vert\le \gamma\Vert v-x\Vert,\qquad(1.2.76) G(v)G(x)γvx,(1.2.76)
其中 γ\gammaγ 称为 Lipschitz 常数。如果 x∈D⊂Rnx\in D\subset R^nxDRn,(1.2.76)成立,则称 GGGDDD 上 Lipschitz 连续,记作 G∈Lipγ(D)G\in Lip_{\gamma}(D)GLipγ(D)


Lipschitz 连续,常出现,比如在:Wasserstein GAN 中要求,判别器的网络参数满足Lipschitz 连续要求。


定理 1.2.12
F:Rn→Rm×nF:R^n\to R^{m\times n}F:RnRm×n 在开凸集 DDD 上连续可微,F′F'Fx∈邻域Dx\in\text{邻域}Dx邻域D 中 Lipschitz 连续,则对于任何 x+d∈Dx+d\in Dx+dD,有
∥F(x+d)−F(x)−F′(x)d∥≤γ2∥d∥2(1.2.77) \Vert F(x+d)-F(x)-F'(x)d\Vert\le\frac{\gamma}{2}\Vert d\Vert^2\qquad(1.2.77) F(x+d)F(x)F(x)d2γd2(1.2.77)
证明:
F(x+d)−F(x)−F′(x)d=∫01F′(x+αd)d⋅dα−F′(x)d =∫01[F′(x+αd)−F′(x)]d⋅dα F(x+d)-F(x)-F'(x)d=\int_0^1 F'(x+\alpha d)d\cdot d\alpha-F'(x)d\\ \text{ } \\ =\int_0^1[F'(x+\alpha d)-F'(x)]d\cdot d\alpha F(x+d)F(x)F(x)d=01F(x+αd)ddαF(x)d =01[F(x+αd)F(x)]ddα
从而,
∥F(x+d)−F(x)−F′(x)d∥≤∫01∥F′(x+αd)−F′(x)∥∥d∥dα ≤∫01γ∥αd∥∥d∥dα =γ∥d∥2∫01αdα=γ2∥d∥2□ \Vert F(x+d)-F(x)-F'(x)d\Vert\le \int_0^1 \Vert F'(x+\alpha d)-F'(x) \Vert \Vert d\Vert d\alpha \\ \text{ } \\ \le\int_0^1 \gamma\Vert\alpha d\Vert\Vert d\Vert d\alpha \\ \text{ } \\ = \gamma\Vert d\Vert^2\int_0^1 \alpha d\alpha=\frac{\gamma}{2}\Vert d \Vert^2 \qquad\square F(x+d)F(x)F(x)d01F(x+αd)F(x)ddα 01γαdddα =γd201αdα=2γd2
定理(1.2.12)给出了用线性模型 F(x)+F′(x)dF(x)+F'(x)dF(x)+F(x)d 作为 F(x+d)F(x+d)F(x+d)近似所产生的误差界。类似于定理 1.2.12,我们可以给出用二次模型作为 f(x+d)f(x+d)f(x+d) 的近似所产生的误差界。
定理 1.2.13
f:Rn→Rf:R^n\to Rf:RnR 在开凸集 D⊂RnD\subset R^nDRn 上二次连续可微,设 ∇2f(x)\nabla^2f(x)2f(x)x∈邻域Dx\in\text{邻域}Dx邻域D 中 Lipschitz 连续,则对于任何 x+d∈Dx+d\in Dx+dD,有
∣f(x+d)−[f(x)+∇f(x)Td+12dT∇2f(x)d]∣≤γ2∥d∥3(1.2.78) \left \vert f(x+d)-[f(x)+\nabla f(x)^Td+\frac 12d^T\nabla^2f(x)d]\right\vert \le \frac{\gamma}{2}\Vert d\Vert^3\qquad(1.2.78) f(x+d)[f(x)+f(x)Td+21dT2f(x)d]2γd3(1.2.78)


让我们想起一维函数的泰勒展开,这里有Lipschitz 连续 的约束。


作为定理 1.2.12 的推广,可以得到
定理 1.2.14
F:Rn→RmF:R^n\to R^mF:RnRm 在开凸集 DDD 上连续可微,则对于任何 x,u,v∈Dx,u,v\in Dx,u,vD,有
∥F(u)−F(v)−F′(v)(u−v)∥≤  [sup⁡0≤t≤1∥F′(v+t(u−v))−F′(x)]∥u−v∥(1.2.79) \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le\\ \text{ } \\ \text{ } \\ \left[ \sup_{0\le t\le 1} \Vert F'(v+t(u-v))-F'(x)\right]\Vert u-v\Vert\qquad(1.2.79) F(u)F(v)F(v)(uv)  [0t1supF(v+t(uv))F(x)]uv(1.2.79)
再设 F′F'F 满足 Lipschitz 连续,则有:
∥F(u)−F(v)−F′(v)(u−v)∥≤γσ(u,v)∥u−v∥(1.2.80a) ∥F(u)−F(v)−F′(v)(u−v)∥≤γ∥u−x∥+∥x−v∥2∥u−v∥(1.2.80b) \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\sigma(u,v)\Vert u-v \Vert \qquad(1.2.80a) \\ \text{ } \\ \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\Vert u-v \Vert \qquad(1.2.80b) F(u)F(v)F(v)(uv)γσ(u,v)uv(1.2.80a) F(u)F(v)F(v)(uv)γ2ux+xvuv(1.2.80b)
其中,σ(u,v)=max⁡{∥u−x∥,∥v−x∥}\sigma(u,v)=\max\{ \Vert u-x\Vert, \Vert v-x\Vert\}σ(u,v)=max{ux,vx}


定理 1.2.15
F,F′F,F'F,F 满足定理 1.2.14 的条件,假定 [F′(x)]−1[F'(x)]^{-1}[F(x)]1 存在,则存在 ϵ>0,β>α>0\epsilon \gt 0,\beta\gt\alpha\gt 0ϵ>0,β>α>0,使得 ∀u,v∈D\forall u,v\in Du,vD,当 max⁡{∥u−x∥,∥v−x∥}≤ϵ\max \{\Vert u-x\Vert,\Vert v-x\Vert\}\le\epsilonmax{ux,vx}ϵ 时,有
α∥u−v∥≤∥F(u)−F(v)∥≤β∥u−v∥(1.2.81) \alpha \Vert u-v \Vert \le \Vert F(u)-F(v)\Vert \le \beta\Vert u-v \Vert \qquad(1.2.81) αuvF(u)F(v)βuv(1.2.81)
证明:
利用三角不等式和(1.2.80b)
∥F(u)−F(v)∥≤∥F′(x)(u−v)∥+∥F(u)−F(v)−F′(v)(u−v)∥ ≤[∥F′(x)∥+γ∥u−x∥+∥x−v∥2]∥u−v∥ ≤[∥F′(x)∥+γϵ]∥u−v∥ \Vert F(u)-F(v)\Vert\le \Vert F'(x)(u-v)\Vert+\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \le\left[ \Vert F'(x)\Vert+\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \le \left[ \Vert F'(x)\Vert+\gamma\epsilon \right]\Vert u-v\Vert F(u)F(v)F(x)(uv)+F(u)F(v)F(v)(uv) [F(x)+γ2ux+xv]uv [F(x)+γϵ]uv
β=∥F′(x)∥+γϵ\beta=\Vert F'(x)\Vert +\gamma\epsilonβ=F(x)+γϵ,则有(1.2.81)右边的不等式。
类似的,
∥F(u)−F(v)∥≥∥F′(x)(u−v)∥−∥F(u)−F(v)−F′(v)(u−v)∥ ≥[1/∥F′(x)∥−1−γ∥u−x∥+∥x−v∥2]∥u−v∥ ≥[1/∥F′(x)∥−1−γϵ]∥u−v∥ \Vert F(u)-F(v)\Vert\ge \Vert F'(x)(u-v)\Vert-\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \ge\left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \ge \left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\epsilon \right]\Vert u-v\Vert F(u)F(v)F(x)(uv)F(u)F(v)F(v)(uv) [1/F(x)1γ2ux+xv]uv [1/F(x)1γϵ]uv
因此,如果 ϵ&lt;1∥[F′(x)]−1∥γ\epsilon\lt\frac{1}{\Vert[F&#x27;(x)]^{-1}\Vert\gamma}ϵ<[F(x)]1γ1,则令
α=1∥[F′(x)]−1∥−γϵ&gt;0 \alpha = \frac{1}{\Vert[F&#x27;(x)]^{-1}\Vert}-\gamma\epsilon\gt 0 α=[F(x)]11γϵ>0
便得到(1.2.81)中左边的不等式。
□\square


在这段叙述中,我们看到向量值函数若满足 Lipschitz连续 约束,则它的变化(梯度变化)将在某一个范围内,于是就将具有许多有用的推导特性。


1.2.6 有限差分导数

F:Rn→RmF:R^n\to R^mF:RnRm其 Jacobi 矩阵 J(x)J(x)J(x) 的第 (i,j)(i,j)(i,j) 个分量可以用有限差分
aij=fi(x+hej)−fi(x)h(1.2.82) a_{ij}=\frac{f_i(x+he_j)-f_i(x)}{h} \qquad(1.2.82) aij=hfi(x+hej)fi(x)(1.2.82)
近似,其中 fi(x)f_i(x)fi(x) 表示 F(x)F(x)F(x) 的第 i 个分量,eje_jej 表示第 j 个单位向量,hhh 是一个数,表示步长因子。等价地,如果用 A⋅jA_{\cdot j}Aj 表示 AAA 的第 j 列,我们有
A⋅j=F(x+hej)−F(x)h(1.2.83) A_{\cdot j} = \frac{F(x+he_j)-F(x)}{h} \qquad(1.2.83) Aj=hF(x+hej)F(x)(1.2.83)
定理 1.2.16(一次)
F:Rn→RmF:R^n \to R^mF:RnRm 满足定理 1.2.12 的条件,又设采用的范数 ∥⋅∥\Vert \cdot \Vert 满足 ∥ej∥=1,j=1,⋯&ThinSpace;,n\Vert e_j \Vert=1,j=1,\cdots,nej=1,j=1,,n,则
∥A⋅j−J(x)⋅j∥≤γ2∣h∣(1.2.84) \Vert A_{\cdot j} - J(x)_{\cdot j}\Vert \le \frac{\gamma}{2}\vert h\vert\qquad(1.2.84) AjJ(x)j2γh(1.2.84)
如果采用的是 l1l_1l1 范数,则:
∥A−J(x)∥1≤γ2∣h∣(1.2.85) \Vert A-J(x) \Vert_1 \le \frac{\gamma}{2}\vert h\vert \qquad(1.2.85) AJ(x)12γh(1.2.85)


定理 1.2.16 反映了 Jacobi矩阵 与它的近似之间的误差界。


定理 1.2.17(二次)
F:Rn→RmF:R^n \to R^mF:RnRm 满足定理 1.2.13 的条件,又设采用的范数 ∥⋅∥\Vert \cdot \Vert 满足 ∥ei∥=1,i=1,⋯&ThinSpace;,n\Vert e_i \Vert=1,i=1,\cdots,nei=1,i=1,,n,假定 x+hei,x−hei∈D,i=1,⋯&ThinSpace;,nx+he_i, x-he_i\in D,i=1,\cdots,nx+hei,xheiD,i=1,,n,并设向量 a∈Rna\in R^naRn,其分量 aia_iai 定义为:
ai=f(x+hei)−f(x−hei)2h(1.2.86) a_i=\frac{f(x+he_i)-f(x-he_i)}{2h}\qquad(1.2.86) ai=2hf(x+hei)f(xhei)(1.2.86)

∣ai−[∇f(x)]i∣≤γ6h2(1.2.87) \vert a_i-[\nabla f(x)]_i\vert \le \frac{\gamma}{6}h^2 \qquad(1.2.87) ai[f(x)]i6γh2(1.2.87)
如果所采用的是 l∞l_{\infty}l 范数,则
∥a−∇f(x)∥∞≤γ6h2(1.2.88) \Vert a-\nabla f(x)\Vert_{\infty} \le \frac{\gamma}{6}h^2 \qquad(1.2.88) af(x)6γh2(1.2.88)

定理 1.2.18
fff 满足定理 1.2.17 的条件,假定 x,x+hei,x+hej,x+hei+hej∈D,1≤x,y≤nx,x+he_i,x+he_j,x+he_i+he_j\in D,1\le x,y\le nx,x+hei,x+hej,x+hei+hejD,1x,yn。又设 A∈Rn×nA\in R^{n\times n}ARn×n,其分量 aija_{ij}aij 定义为
aij=f(x+hei+hej)−f(x+hei)−f(x+hej)+f(x)2h2(1.2.90) a_ij=\frac{f(x+he_i+he_j)-f(x+he_i)-f(x+he_j)+f(x)}{2h^2}\qquad(1.2.90) aij=2h2f(x+hei+hej)f(x+hei)f(x+hej)+f(x)(1.2.90)
于是
∣aij−[∇2f(x)]ij∣≤14γh(1.2.91) \vert a_{ij} - [\nabla^2 f(x)]_{ij}\vert \le \frac14 \gamma h\qquad(1.2.91) aij[2f(x)]ij41γh(1.2.91)
如果所采用的是 l1,l∞l_1,l_{\infty}l1,l 或 Frobenius范数,则
∥A−∇2f(x)∥≤14γhn(1.2.92) \Vert A-\nabla^2f(x)\Vert \le \frac 14 \gamma hn\qquad(1.2.92) A2f(x)41γhn(1.2.92)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值