基础数学:微积分和概率与统计

本篇文章简单带您复习微积分和概率与统计(主要是我发表的文章中涉及过的或相关联的)

线性代数与优化理论由此进:基础数学:线性代数与优化理论-优快云博客

图论与信息论由此进:基础数学:图论与信息论-优快云博客

数值分析与离散数学由此进:基础数学:数值分析与离散数学-优快云博客

零、微积分

1.极限与连续性

(1) 极限的定义

  • 极限:函数 f(x) 在 x\rightarrow a 时的极限为 L,记作:

        \underset{x\rightarrow a}{lim}f(x)=L

        严格定义(\varepsilon \text{-}\delta定义):对任意 \epsilon >0,存在 \delta >0,使得当 0<|x-a|<\delta 时,|f(x)-L|<\epsilon

  • 应用:

        梯度下降中,步长趋近于零时参数更新的极限行为

        概率密度函数的连续性假设(如高斯分布)

(2) 连续性

  • 连续函数:若 \underset{x\rightarrow a}{lim}f(x)=f(a),则 f(x) 在 x=a 处连续
  • 一致连续性:在区间内连续性不依赖与点的位置

2.导数与微分

(1) 导数的定义

  • 导数:函数 f(x) 在 x=a 处的导数为:

        f'(a)=\underset{h\rightarrow 0}{lim}\frac{f(a+h)-f(a)}{h}

        几何解释:导数表示函数曲线在该点的切线斜率

  • 常见导数规则:

        线性性:(af+bg)'=af'+bg'

        乘积法则:(fg)'=f'g+fg'

        链式法则:\frac{d}{dx}f(g(x))=f'(g(x))\cdot g'(x)

(2) 梯度与方向导数

  • 梯度:多元函数 f:\mathbb{R}^{n}\rightarrow \mathbb{R} 的梯度为偏导数组成的向量:

        \triangledown f=(\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}},...,\frac{\partial f}{\partial x_{n}})

        几何意义:梯度方向时函数上升最快的方向

  • 方向导数:函数 f 在方向 u 上的导数为:D_{u}f=\triangledown f\cdot u

(3) 高阶导数与Hessian矩阵

  • 二阶导数:导数的导数,记作 f^{n}(x) 或 \frac{d^{2}f}{dx^{2}}
  • Hessian矩阵:多元函数 f(x) 的Hessian矩阵 H 包含二阶偏导数:

        H_{ij}=\frac{\partial^{2}f}{\partial x_{i} \partial x_{j}}

  • 应用

        牛顿法优化(利用Hessian矩阵求二阶近似)

        曲率分析(判断临界点性质)

3.积分

(1) 不定积分与定积分

  • 不定积分:求导的逆运算,记作 \int f(x)dx=F(x)+C,满足 F'(x)=f(x)
  • 定积分:\int_{a}^{b}f(x)dx=\underset{n\rightarrow \infty }{lim}\sum_{i=1}^{n}f(x_{i}^{*})\triangle x

        几何意义:曲线下面积

(2 ) 积分技巧

  • 分部积分法:\int udv=uv-\int vdu
  • 换元积分法:若 u=g(x),则 \int f(g(x))g'(x)dx=\int f(u)du

(3) 概率密度与积分

  • 概率密度函数(PDF):连续随机变量 X 的PDF满足 \int_{-\infty }^{+\infty}p(x)dx=1
  • 期望值:\mathbb{E}[X]=\int_{-\infty }^{+\infty}xp(x)dx

4.微分方程

(1) 常微分方程(ODE)

  • 一阶线性ODE:\frac{dy}{dt}+P(t)y=Q(t)

        通解:

                y(t)=e^{-\int P(t)dt}(\int Q(t)e^{\int P(t)dt}dt+C)

(2) 偏微分方程(PDE)

  • 热传导方程:\frac{\partial u}{\partial t}=\alpha \triangledown ^{2}u

5.应用场景

(1) 梯度下降中的导数应用

  • 参数更新:\theta_{t+1}=\theta_{t}-\eta \triangledown _{\theta}\mathcal{L}(\theta_{t})

        在反向传播中,计算损失对深层参数的导数需逐层链式求导

(2) 注意力机制中的导数计算

  • Softmax导数:设  S_{i}=softmax(x_{i})=\frac{e^{x_{i}}}{\sum_{j}^{}e^{x_{j}}},则:

        \frac{\partial S_{i}}{\partial x_{j}}=\left\{\begin{matrix} S_i(1-S_j) \quad i=j\\ \hspace{-0.8cm} -S_i S_j \quad i\neq j \end{matrix}\right.

        在自注意力机制中计算梯度以更新参数

(3) 概率建模中的积分应用

  • 边缘化:对联合概率分布积分消除变量:

        p(x)=\int p(x,y)dy

        隐变量模型(如VAE)中的变分推断

6.核心公式总结

导数定义:f'(a)=\underset{h\rightarrow 0}{lim}\frac{f(a+h)-f(a)}{h}

链式法则:\frac{d}{dx}f(g(x))=f'(g(x))\cdot g'(x)

梯度:\triangledown f=(\frac{\partial f}{\partial x_{1}},\frac{\partial f}{\partial x_{2}},...,\frac{\partial f}{\partial x_{n}})

分部积分法:\int udv=uv-\int vdu

一、概率与统计

1.概率基础

(1) 概率公理与基本运算

  • 公理化定义:

        1. 非负性:对任意事件 AP(A)\geq 0

        2. 规范性:P(\Omega )=1,其中 \Omega 是样本空间

        3. 可列可加性:若事件 A_{1},A_{2},...两两互斥,则

                P(\bigcup_{i=1}^{\infty }A_{i})=\sum_{i=1}^{\infty }P(A_{i})

  • 条件概率的几何解释:

        假设事件 B 发生,将样本空间缩小到 B,此时 A 的概率为 P(A|B)

        公式推导:

                P(A|B)=\frac{P(A\cap B)}{P(B)} 

  • 示例:

        抛一枚骰子,已知结果是偶数(事件 B),求结果大于3(事件 A)的概率

                B={2,4,6},A\cap B={4,6}

                P(A|B)=\frac{2/6}{3/6}=\frac{2}{3}

(2) 贝叶斯定理的全公式展开

  • 全概率公式:

        若事件 B_{1},B_{2},...,B_{n} 互斥且完备(即 \bigcup_{i=1}^{n}B_{i}=\Omega),则

                P(A)=\sum_{i=1}^{n}P(A|B_{i})P(B_{i})

  • 贝叶斯定理:

                P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{\sum_{j=1}^{n}P(A|B_{j})P(B_{j})}

  • 示例:

        假设某疾病患病率 P(D)=0.01,检测准确率 P(+|D)=0.95,误检率 P(+|\neg D)=0.05。求检测阳性时实际患病的概率 P(D|+)

               P(D|+)=\frac{0.95\times 0.01}{0.95\times 0.01+0.05\times 0.99}\approx 0.161

(3) 概率分布

  • 离散型分布:

        二项分布:

        参数:试验次数 n,单次成功概率 p

        概率质量函数(PMF):

                P(X=k)=C(n,k)p^{k}(1-p)^{n-k},\quad k=0,1,...,n

        期望与方差:

                \mathbb{E}[X]=np,\quad Var(X)=np(1-p)

        泊松分布:

        参数:平均发生率 \lambda

        PMF:

                P(X=k)=\frac{\lambda ^{k}e^{-\lambda }}{k!},\quad k=0,1,2,...

  • 连续型分布:

        指数分布:

        参数:速率 \lambda >0

        概率密度函数(PDF):

                f(x)=\lambda e^{-\lambda x},\quad x\geq 0

        无记忆性:P(X > s+t|X>s)=P(X>t)

        Beta分布:

        参数:形状参数 \alpha ,\beta >0

        PDF:

                f(x;\alpha ,\beta )=\frac{x^{\alpha -1}(1-x)^{​{\beta -1}}}{B(\alpha ,\beta )},\quad 0\leq x\leq 1

        其中 B(\alpha ,\beta )=\frac{\Gamma(\alpha )\Gamma(\beta )}{\Gamma(\alpha +\beta )} 是Beta函数

(4) 采样方法

  • 蒙特卡洛积分:

        目标:计算积分 I\approx \int_{a}^{b}f(x)dx

        方法:生成均匀分布样本 x_{1},...,x_{N}\sim U(a,b),估计

                I\approx \frac{b-a}{N}\sum_{i=1}^{N}f(x_{i})

        方差分析:

        估计误差与样本量成反比:Var(\tilde{I})\propto \frac{1}{N}

  • MCMC的细致平衡条件:

        对于马尔可夫链,若满足

                P(x)T(x\rightarrow x')=P(x')T(x'\rightarrow x)

        则链的平稳分布为 P(x) ,其中 T(x\rightarrow x') 是转移概率

  • 重要性采样的权重修正:

        设目标分布为 p(x) ,提议分布为 q(x),则权重为 w(x)\frac{p(x)}{q(x)}

        期望估计:

                \mathbb{E}_{p}[f(x)]\approx \frac{1}{N}\sum_{i=1}^{N}f(x_{i})w(x_{i})

2.统计方法

(1) 最大似然估计(MLE)

  • 似然函数和对数似然:

        给定独立同分布数据\left \{ x_{i} \right \}_{i=1}^{N},似然函数为

                \mathcal{L}(\theta )=\prod_{i=1}^{N}P(x_{i}|\theta )

        取对数得对数似然:

                ln\mathcal{L}(\theta )=\sum_{i=1}^{N}lnP(x_{i}|\theta )

        MLE:

                \hat{\theta }_{MLE}=arg\underset{\theta}{max}\,ln\mathcal{L}(\theta)

  • 求解MLE的步骤

        1.对 ln\mathcal{L}(\theta ) 关于 \theta 求导

        2.令导数为零,解方程 \frac{\partial ln \mathcal{L}(\theta)}{\partial(\theta)}=0

        3.验证二阶导数为负(确保是最大值)

  • 示例:高斯分布的MLE

        假设数据服从 \mathcal{N}(\mu ,\sigma ^{2}),则

                ln \mathcal{L}(\mu ,\sigma ^{2})=-\frac{N}{2}ln(2\pi )-\frac{N}{2}ln\sigma ^{2}-\frac{1}{2\sigma ^{2}}\sum_{i=1}^{N}(x_{i}-\mu )^{2}

        对 \mu 求导得:

                \hat{\mu }_{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_{i}

        对 \sigma ^{2} 求导得:

                \hat{\sigma }_{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\hat{\mu })^{2}

(2) 假设检验

  • 步骤分解:

        1. 原假设 H_{0} 和备择假设 H_{1}

                H_{0}:\theta =\theta_{0},H_{1}:\theta \neq \theta_{0}

        2.选择检验统计量 T

                T=\frac{\bar{X}-\theta_{0}}{s/\sqrt{N}}

        3.确定显著性水平 \alpha

                通常 \alpha =0.05

        4.计算 p 值

                p=P(\left | T \right |\geq t_{obs}|H_{0})

        5.决策:若 p<\alpha,拒绝 H_{0}

  • 第一类错误与第二类错误:

        第一类错误(Type I):错误拒绝 H_{0},概率为 \alpha

        第一类错误(Type II):错误拒绝 H_{1},概率为 \beta

        功效:1-\beta

(3) 投票策略

  • 多数投票的获胜条件:

        设有 m 个类别,n 个投票者,每个投票者独立选择类别 c_{j}

        获胜类别 c^{*} 满足:

                c^{*}=arg\underset{c}{max}\sum_{i=1}^{n}\mathbb{I}(c_{j}=c)

  • 加权投票的权重分配:

        设第 i 个模型的置信度为 w_{i},则

                c^{*}=arg\underset{c}{max}\sum_{i=1}^{n}w_{i}\mathbb{I}(c_{j}=c)

3.应用场景

(1) BPE算法的频率统计与贪心合并

请见我的这篇文章:从理论到实践:字节对编码(BPE)算法-优快云博客

(2) CoT的多步概率分解

请见我的这篇文章:从理论到实践:思维链(CoT)提示-优快云博客

(3) 量化误差

请见我的这篇文章:从理论到实践:absmax、zeropoint和LLM.int8()在gpt-2的应用-优快云博客

4.核心公式总结

条件概率:P(A||B)=\frac{P(A\cap B)}{P(B)}

贝叶斯定理:P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{\sum_{j}^{}P(A|B_{j})P(B_{j})}

二项分布PMF:P(X=k)=C(n,k)p^{k}(1-p)^{n-k}

指数分布PDF:f(x)=\lambda e^{-\lambda x}

高斯分布PDF:f(x)=\frac{1}{\sigma \sqrt{2\pi }}e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}

最大似然估计:\hat{\theta }_{MLE}=arg\underset{\theta}{max}\,ln\mathcal{L}(\theta)

蒙特卡洛积分:\int_{a}^{b}f(x)dx\approx \frac{b-a}{N}\sum_{i=1}^{N}f(x_{i})

MLE高斯分布参数估计:\hat{\mu }=\frac{1}{N}\sum x_{i},\hat{\sigma }=\frac{1}{N}\sum (x_{i}-\hat{\mu })^{2}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值