本篇文章简单带您复习微积分和概率与统计(主要是我发表的文章中涉及过的或相关联的)
线性代数与优化理论由此进:基础数学:线性代数与优化理论-优快云博客
图论与信息论由此进:基础数学:图论与信息论-优快云博客
数值分析与离散数学由此进:基础数学:数值分析与离散数学-优快云博客
零、微积分
1.极限与连续性
(1) 极限的定义
- 极限:函数
在
时的极限为
,记作:
严格定义(定义):对任意
,存在
,使得当
时,
- 应用:
梯度下降中,步长趋近于零时参数更新的极限行为
概率密度函数的连续性假设(如高斯分布)
(2) 连续性
- 连续函数:若
,则
在
处连续
- 一致连续性:在区间内连续性不依赖与点的位置
2.导数与微分
(1) 导数的定义
- 导数:函数
在
处的导数为:
几何解释:导数表示函数曲线在该点的切线斜率
- 常见导数规则:
线性性:
乘积法则:
链式法则:
(2) 梯度与方向导数
- 梯度:多元函数
的梯度为偏导数组成的向量:
几何意义:梯度方向时函数上升最快的方向
- 方向导数:函数
在方向
上的导数为:
(3) 高阶导数与Hessian矩阵
- 二阶导数:导数的导数,记作
或
- Hessian矩阵:多元函数
的Hessian矩阵
包含二阶偏导数:
- 应用
牛顿法优化(利用Hessian矩阵求二阶近似)
曲率分析(判断临界点性质)
3.积分
(1) 不定积分与定积分
- 不定积分:求导的逆运算,记作
,满足
- 定积分:
几何意义:曲线下面积
(2 ) 积分技巧
- 分部积分法:
- 换元积分法:若
,则
(3) 概率密度与积分
- 概率密度函数(PDF):连续随机变量
的PDF满足
- 期望值:
4.微分方程
(1) 常微分方程(ODE)
- 一阶线性ODE:
通解:
(2) 偏微分方程(PDE)
- 热传导方程:
5.应用场景
(1) 梯度下降中的导数应用
- 参数更新:
在反向传播中,计算损失对深层参数的导数需逐层链式求导
(2) 注意力机制中的导数计算
- Softmax导数:设
,则:
在自注意力机制中计算梯度以更新参数
(3) 概率建模中的积分应用
- 边缘化:对联合概率分布积分消除变量:
隐变量模型(如VAE)中的变分推断
6.核心公式总结
导数定义:
链式法则:
梯度:
分部积分法:
一、概率与统计
1.概率基础
(1) 概率公理与基本运算
- 公理化定义:
1. 非负性:对任意事件 ,
2. 规范性:,其中
是样本空间
3. 可列可加性:若事件 两两互斥,则
- 条件概率的几何解释:
假设事件 发生,将样本空间缩小到
,此时
的概率为
公式推导:
- 示例:
抛一枚骰子,已知结果是偶数(事件 ),求结果大于3(事件
)的概率
(2) 贝叶斯定理的全公式展开
- 全概率公式:
若事件 互斥且完备(即
),则
- 贝叶斯定理:
- 示例:
假设某疾病患病率 ,检测准确率
,误检率
。求检测阳性时实际患病的概率
(3) 概率分布
- 离散型分布:
二项分布:
参数:试验次数 ,单次成功概率
概率质量函数(PMF):
期望与方差:
泊松分布:
参数:平均发生率
PMF:
- 连续型分布:
指数分布:
参数:速率
概率密度函数(PDF):
无记忆性:
Beta分布:
参数:形状参数
PDF:
其中 是Beta函数
(4) 采样方法
- 蒙特卡洛积分:
目标:计算积分
方法:生成均匀分布样本 ,估计
方差分析:
估计误差与样本量成反比:
- MCMC的细致平衡条件:
对于马尔可夫链,若满足
则链的平稳分布为 ,其中
是转移概率
- 重要性采样的权重修正:
设目标分布为 ,提议分布为
,则权重为
期望估计:
2.统计方法
(1) 最大似然估计(MLE)
- 似然函数和对数似然:
给定独立同分布数据,似然函数为
取对数得对数似然:
MLE:
- 求解MLE的步骤
1.对 关于
求导
2.令导数为零,解方程
3.验证二阶导数为负(确保是最大值)
- 示例:高斯分布的MLE
假设数据服从 ,则
对 求导得:
对 求导得:
(2) 假设检验
- 步骤分解:
1. 原假设 和备择假设
:
2.选择检验统计量 :
3.确定显著性水平 :
通常
4.计算 值
5.决策:若 ,拒绝
- 第一类错误与第二类错误:
第一类错误(Type I):错误拒绝 ,概率为
第一类错误(Type II):错误拒绝 ,概率为
功效:
(3) 投票策略
- 多数投票的获胜条件:
设有 个类别,
个投票者,每个投票者独立选择类别
获胜类别 满足:
- 加权投票的权重分配:
设第 个模型的置信度为
,则
3.应用场景
(1) BPE算法的频率统计与贪心合并
请见我的这篇文章:从理论到实践:字节对编码(BPE)算法-优快云博客
(2) CoT的多步概率分解
请见我的这篇文章:从理论到实践:思维链(CoT)提示-优快云博客
(3) 量化误差
请见我的这篇文章:从理论到实践:absmax、zeropoint和LLM.int8()在gpt-2的应用-优快云博客
4.核心公式总结
条件概率:
贝叶斯定理:
二项分布PMF:
指数分布PDF:
高斯分布PDF:
最大似然估计:
蒙特卡洛积分:
MLE高斯分布参数估计: