机器学习中的数学基础 1

O(n)O(n)O(n)o(n)o(n)o(n)

  • o = order :多项式的阶
  • O(n)O(n)O(n)∃\exists x0>0,ε>0x_0 > 0, \varepsilon > 0x0>0,ε>0,使得 x>x0x > x_0x>x0 时,f(x)≤εg(x)f(x) \leq \varepsilon g(x)f(x)εg(x),此时可表示为 f(x)=O(g(x))f(x) = O(g(x))f(x)=O(g(x))f(x)f(x)f(x) 的阶 不会比 g(x)g(x)g(x)
  • o(n)o(n)o(n)∀\forall ε>0\varepsilon > 0ε>0∃\exists x0>0x_0 > 0x0>0,使得 x≥x0x \geq x_0xx0 时,f(x)≤εg(x)f(x) \leq \varepsilon g(x)f(x)εg(x),此时可以表示为f(x)=o(g(x))f(x)=o(g(x))f(x)=o(g(x))f(x)f(x)f(x) 的阶比 g(x)g(x)g(x) 小,相对 O(n)O(n)O(n) 更严格

参考:https://en.wikipedia.org/wiki/Big_O_notation

极限

对于 ∀\forall ε>0\varepsilon > 0ε>0∃\exists δ>0\delta > 0δ>0,使得当 0<∣x−x0∣<δ0 < |x − x_0| < \delta0<xx0<δ 时,有:

∣f(x)−L∣<ε |f (x) − L| < \varepsilon f(x)L<ε

记为 lim⁡x→x0f(x)=L\lim_{x \rightarrow x_0}f(x)=Llimxx0f(x)=L

求导

按照定义,给出求导公式:

lim⁡x1→x0f(x1)−f(x0)x1−x0 \lim_{x_1 \rightarrow x_0} \cfrac{f(x_1) - f(x_0)}{x_1 - x_0} x1x0limx1x0f(x1)f(x0)

参考:https://en.wikipedia.org/wiki/Derivative
在线工具:https://www.derivative-calculator.net/

在这里插入图片描述

python package

simpy 符号计算

https://simpy.readthedocs.io/en/latest/

求导方法

  • 四则运算

在这里插入图片描述

  • 链式法则

兩函數f和g的定義域(Df和Dg)、值域(If和Ig)都包含於實數系R,若可以定義合成函數g∘f(也就是If∩Dg≠∅)兩函數 {\displaystyle f} 和 {\displaystyle g} 的定義域 ({\displaystyle D_{f}} 和 {\displaystyle D_{g}}) 、值域 ({\displaystyle I_{f}} 和 {\displaystyle I_{g}}) 都包含於實數系 {\displaystyle \mathbb {R} } ,若可以定義合成函數 {\displaystyle g\circ f} (也就是 {\displaystyle I_{f}\cap D_{g}\neq \varnothing })兩函數fg的定義域(DfDg)、值域(IfIg)都包含於實數系R,若可以定義合成函數gf(也就是IfDg=),且 f於a∈Df可微分,且g於f(a)∈If∩Dg可微分,則{\displaystyle f} 於 {\displaystyle a\in D_{f}} 可微分,且 {\displaystyle g} 於 {\displaystyle f(a)\in I_{f}\cap D_{g}} 可微分,則faDf可微分,且gf(a)IfDg可微分,則

(g∘f)′(a)=g′[f(a)]⋅f′(a) {\displaystyle {(g\circ f)}^{\prime }(a)=g^{\prime }[f(a)]\cdot f^{\prime }(a)} (gf)(a)=g[f(a)]f(a)

也可以寫成

dg[f(x)]dx∣x=a=dg(y)dy∣y=f(a)⋅dfdx∣x=a {\displaystyle {\frac {dg[f(x)]}{dx}}{\bigg |}_{x=a}={\frac {dg(y)}{dy}}{\bigg |}_{y=f(a)}\cdot {\frac {df}{dx}}{\bigg |}_{x=a}} dxdg[f(x)]x=a=dydg(y)y=f(a)dxdfx=a

费马定理(极值定理)

极值定理

在微积分中,极值定理说明如果实函数fff在闭区间[a,b][a,b][a,b]上是连续函数,则它一定取得最大值和最小值,至少一次。也就是说,存在[a,b][a,b][a,b]内的cccddd,使得:

∀x∈[a,b],f(c)≥f(x)≥f(d)。 \forall x\in [a,b], f(c) \ge f(x) \ge f(d) 。 x[a,b],f(c)f(x)f(d)

闭区间[a,b][a,b][a,b]上的连续函数f(x)f(x)f(x),其最大值为红色点,最小值为蓝色点。

在这里插入图片描述

费马引理

函数f(x)f(x)f(x)在点x0x_0x0的某邻域U(x0)U(x_0)U(x0)内有定义,并且在x0x_0x0处可导,如果对任意的x∈U(x0)x\in U(x_0)xU(x0),有

f(x)≤f(x0)或f(x)≥f(x0) f(x)\le f(x_0)或f(x)\ge f(x_0) f(x)f(x0)f(x)f(x0)

那么f′(x0)=0f^\prime(x_0)=0f(x0)=0

即函数的每一个极值都是驻点(函数的导数在该点为零)。

需要注意的是,费马引理仅仅给出了函数在某个点为极值的必要条件。也就是说,有些驻点不是极值,它们是拐点。要想知道一个驻点是不是极值,并进一步区分最大值和最小值,我们需要分析二阶导数(如果它存在)。

函数逼近(中值定理)

罗尔中值定理

如果函数 f(x)f(x)f(x) 同时满足:

  1. 在闭区间[a,b][a,b][a,b]上连续;
  2. 在开区间(a,b)(a,b)(a,b)内可微分;
  3. 在区间端点处的函数值相等,即f(a)=f(b)f(a)=f(b)f(a)=f(b)

那么在 (a,b)(a,b)(a,b) 内至少有一点 ξ(a<ξ<b)\xi (a<\xi<b)ξ(a<ξ<b),使得 f′(ξ)=0f^\prime(\xi)=0f(ξ)=0

拉格朗日中值定理

如果函数f(x)f(x)f(x)满足:

  1. 在闭区间 [a,b][a,b][a,b] 上连续;
  2. 在开区间 (a,b)(a,b)(a,b) 内可微分;

那么至少有一点 ξ,  a<ξ<b{\displaystyle \xi ,\;a<\xi <b}ξ,a<ξ<b,使下面等式成立

f(b)−f(a)=f′(ξ)(b−a)。 f(b)-f(a)=f^{\prime }(\xi )(b-a)。 f(b)f(a)=f(ξ)(ba)

柯西中值定理

如果函数f(x)f(x)f(x)g(x)g(x)g(x) 满足

  1. 在闭区间[a,b][a,b][a,b]上连续;
  2. 在开区间(a,b)(a,b)(a,b)内可微分;

对任意x∈(a,b),g′(x)≠0x\in (a,b),g'(x)\neq 0x(a,b),g(x)=0
那么在(a,b)(a,b)(a,b)内至少有一点ξ(a<ξ<b)\xi (a<\xi<b)ξ(a<ξ<b),使等式

f(b)−f(a)g(b)−g(a)=f′(ξ)g′(ξ) {\frac {f(b)-f(a)}{g(b)-g(a)}}={\frac {f'(\xi )}{g'(\xi )}} g(b)g(a)f(b)f(a)=g(ξ)f(ξ)

(f(b)−f(a))g′(ξ)=(g(b)−g(a))f′(ξ) (f(b)-f(a))g^{\prime}(\xi)=(g(b)-g(a))f^{\prime}(\xi) (f(b)f(a))g(ξ)=(g(b)g(a))f(ξ)

成立。

其几何意义为:用参数方程表示的曲线上至少有一点,它的切线平行于两端点所在的弦。

在这里插入图片描述

泰勒展开

泰勒级数

在数学上,对于一个在实数或复数 aaa 邻域上,以实数作为变量或以复数作为变量的函数,并且是无穷可微的函数f(x)f(x)f(x),它的泰勒级数是以下这种形式的幂级数:

∑n=0∞f(n)(a)n!(x−a)n \sum _{n=0}^{\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n} n=0n!f(n)(a)(xa)n

这里,n!n!n! 表示 nnn 的阶乘,而 f(n)(a)f^{(n)}(a)f(n)(a) 表示函数 fff 在点 aaa 处的 nnn 阶导数。如果 a=0a=0a=0,也可以把这个级数称为麦克劳林级数。

泰勒定理

定理:
nnn 是一个正整数。如果定义在一个包含 aaa 的区间上的函数 fffaaa 点处 n+1n+1n+1 次可导,那么对于这个区间上的任意 xxx,都有:

f(x)=f(a)+f′(a)1!(x−a)+f(2)(a)2!(x−a)2+⋯+f(n)(a)n!(x−a)n+Rn(x) f(x)=f(a)+{\frac {f'(a)}{1!}}(x-a)+{\frac {f^{{(2)}}(a)}{2!}}(x-a)^{2}+\cdots +{\frac {f^{{(n)}}(a)}{n!}}(x-a)^{n}+R_{n}(x) f(x)=f(a)+1!f(a)(xa)+2!f(2)(a)(xa)2++n!f(n)(a)(xa)n+Rn(x)

其中的多项式称为函数在 aaa 处的泰勒展开式,剩余的 Rn(x)R_{n}(x)Rn(x) 是泰勒公式的余项,是 (x−a)n(x-a)^{n}(xa)n 的高阶无穷小,即 o((x−a)n)o((x-a)^{n})o((xa)n)

附:洛必达法则

c∈Rˉ{\displaystyle c\in {\bar {\mathbb {R} }}}cRˉ (扩展实数),两函数 f(x),g(x){\displaystyle f(x),g(x)}f(x),g(x) 在以 x=cx=cx=c 为端点的开区间可微,lim⁡x→cf′(x)g′(x)∈Rˉ{\displaystyle \lim _{x\to c}{\frac {f'(x)}{g'(x)}}\in {\bar {\mathbb {R} }}}xclimg(x)f(x)Rˉ,并且g′(x)≠0{\displaystyle g'(x)\neq 0}g(x)=0

此时洛必达法则表明:

lim⁡x→cf(x)g(x)=lim⁡x→cf′(x)g′(x) {\displaystyle \lim _{x\to c}{\frac {f(x)}{g(x)}}=\lim _{x\to c}{\frac {f'(x)}{g'(x)}}} xclimg(x)f(x)=xclimg(x)f(x)

另外,如果 lim⁡x→cf(x)=lim⁡x→cg(x)=0{\displaystyle \lim _{x\to c}{f(x)}=\lim _{x\to c}{g(x)}=0}xclimf(x)=xclimg(x)=0lim⁡x→c∣f(x)∣=lim⁡x→c∣g(x)∣=∞{\displaystyle \lim _{x\to c}{|f(x)|}=\lim _{x\to c}{|g(x)|}=\infty }xclimf(x)=xclimg(x)= 其中一者成立,则称欲求的极限 lim⁡x→cf(x)g(x){\displaystyle \lim _{x\to c}{\frac {f(x)}{g(x)}}}xclimg(x)f(x) 为未定式。

凸函数

CCC 为实向量空间的凸子集,又设 f:C→R{\displaystyle f:C\to \mathbb {R} }f:CR 为实值函数。

fff 称为凸函数,须满足两个条件:

  1. 函数 fff 的定义域 domfdom fdomf 是一个凸集
  2. ∀ 0≤t≤1,x1,x2∈C,总是f(tx1+(1−t)x2)≤tf(x1)+(1−t)f(x2)\forall \ {\displaystyle 0\leq t\leq 1}, {\displaystyle x_{1},x_{2}\in C}, 总是 {\displaystyle f\left(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)} 0t1,x1,x2C,总是f(tx1+(1t)x2)tf(x1)+(1t)f(x2)

上下凸定义

  • 二阶导数大于零(Convex):(下)凸函数
  • 二阶导数小于零(Concave):上凸函数

在这里插入图片描述

参考:https://zhuanlan.zhihu.com/p/56876303

凸函数二级导数条件证明

当满足   domf(f定义域) is convex(凸集)\ \ domf(f定义域)\ is\ convex(凸集)  domf(f定义域) is convex(凸集)
已知定义:f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)  (0≤θ≤1)f(\theta x+(1-\theta)y)\leq \theta f(x)+(1−θ)f(y) \ \ (0 \leq \theta \leq 1)f(θx+(1θ)y)θf(x)+(1θ)f(y)  (0θ1)
已知一阶条件:f(x)≥f(y)+f′(y)(x−y)f(x)\geq f(y)+f^\prime(y)(x-y)f(x)f(y)+f(y)(xy)

证明:
f(y)≤f(x)−f′(y)(x−y)f(θx+(1−θ)y)≤θf(x)+(1−θ)(f(x)−f′(y)(x−y))f(θx+(1−θ)y)−f(x)≤−(1−θ)f′(y)(x−y)  (1) f(y)≤f(x)−f^\prime(y)(x−y)\\ f(θx+(1−θ)y)≤θf(x)+(1−θ)(f(x)−f^\prime(y)(x−y))\\ f(θx+(1−θ)y)−f(x)≤−(1−θ)f^\prime(y)(x−y) \ \ (1)\\ f(y)f(x)f(y)(xy)f(θx+(1θ)y)θf(x)+(1θ)(f(x)f(y)(xy))f(θx+(1θ)y)f(x)(1θ)f(y)(xy)  (1)
when x→yx \rightarrow yxy
f(θx+(1−θ)y)−f(x)=f′(x)(1−θ)(y−x)代入(1)  f(x)(1−θ)(x−y)≥(1−θ)f′(y)(x−y)f′(x)−f′(y)x−y≥0 f(\theta x+(1-\theta)y)-f(x)=f^\prime(x)(1-\theta)(y-x)\\ 代入(1) \ \ f(x)(1-\theta )(x-y)\geq (1-\theta)f^\prime(y)(x-y)\\ \frac{f^\prime(x)-f^\prime(y)}{x-y}\geq 0\\ f(θx+(1θ)y)f(x)=f(x)(1θ)(yx)代入(1)  f(x)(1θ)(xy)(1θ)f(y)(xy)xyf(x)f(y)0

得证:f′′(x)≥0f^{′′}(x)≥0f′′(x)0

参考:https://blog.youkuaiyun.com/qq_34037046/article/details/87317168
https://greyishsong.ink/%E5%87%B8%E4%BC%98%E5%8C%96%EF%BC%88%E4%B8%80%EF%BC%89%EF%BC%9A%E5%87%B8%E5%87%BD%E6%95%B0%E5%88%A4%E5%AE%9A%E6%96%B9%E6%B3%95%E7%9A%84%E8%AF%81%E6%98%8E

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值