文章目录
本文参考 B站UP: shuhuai008 跳转 🌹🌹
1、介绍引入
-
在统计学和概率论中, P ( x ∣ k ) P(x|k) P(x∣k) 通常表示在给定条件 k k k 下,事件 x x x 发生的条件概率。条件概率是描述两个或多个事件之间关系的概率,其中一个事件的发生依赖于另一个事件的发生。
-
具体来说, P ( x ∣ k ) P(x|k) P(x∣k) 的定义是:在事件 k k k 已经发生的条件下,事件 x x x 发生的概率。这个定义可以用以下公式来表示:
P ( x ∣ k ) = P ( x ∩ k ) P ( k ) P(x|k) = \frac{P(x \cap k)}{P(k)} P(x∣k)=P(k)P(x∩k)
其中, P ( x ∩ k ) P(x \cap k) P(x∩k) 表示事件 x x x 和事件 k k k 同时发生的概率,而 P ( k ) P(k) P(k) 表示事件 k k k 发生的概率。
P1 系列一 绪论-资料介绍
P2 系列一 绪论-频率派VS贝叶斯派
对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
频率—> 统计机器学习 优化模型 Loss function
贝叶斯 —> 概率图模型 求积分
X N × p = ( x 1 , x 2 , ⋯ , x N ) T , x i = ( x i 1 , x i 2 , ⋯ , x i p ) T X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T} XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T
这个记号表示有 N N N 个样本,每个样本都是 p p p 维向量。其中每个观测都是由 p ( x ∣ θ ) p(x|\theta) p(x∣θ) 生成的。
1.1 频率派的观点
p ( x ∣ θ ) p(x|\theta) p(x∣θ)中的 θ \theta θ 是一个常量。对于 N N N 个观测来说观测集的概率为
p ( X ∣ θ ) = i i d ∏ i = 1 N p ( x i ∣ θ ) ) p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta)) p(X∣θ)iid=i=1∏Np(xi∣θ))
。为了求 θ \theta θ 的大小,我们采用最大对数似然MLE的方法:
θ M L E = a r g m a x θ log p ( X ∣ θ ) = i i d a r g m a x θ ∑ i = 1 N log p ( x i ∣ θ ) \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) θMLE=θargmaxlogp(X∣θ)iid=θargmaxi=1∑Nlogp(xi∣θ)
1.2 贝叶斯派的观点
- 全概率
P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i=1}^{n} P(A_i) P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)
- 贝叶斯
P ( A i ∣ B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P(A_i|B) = \frac{P(A_i) P(B|A_i)}{\sum_{j=1}^{n} P(A_j) P(B|A_j)} P(Ai∣B)=∑j=1nP(Aj)P(B∣Aj)P(Ai)P(B∣Ai)
这里,P(A_i|B)
表示在事件 $ B $ 已经发生的条件下,事件 $ A_i $ 发生的条件概率。公式的分母是事件 $ B $ 的全概率,即 $ P(B) $,它是通过全概率公式计算得到的。
贝叶斯派认为 p ( x ∣ θ ) p(x|\theta) p(x∣θ) 中的 θ \theta θ 不是一个常量。这个 θ \theta θ 满足一个预设的先验的分布 θ ∼ p ( θ ) \theta\sim p(\theta) θ∼p(θ) 。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p ( θ ∣ X ) = p ( X ∣ θ ) ⋅ p ( θ ) p ( X ) = p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta} p(θ∣X)=p(X)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
为了求 θ \theta θ 的值,我们要最大化这个参数后验MAP:
📢注意:这里还有个P(X) 省去,因为在关于 θ \theta θ的函数中,X相当于常量
θ M A P = a r g m a x θ p ( θ ∣ X ) = a r g m a x θ p ( X ∣ θ ) ⋅ p ( θ ) \theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta) θMAP=θargmaxp(θ∣X)=θargmaxp(X∣θ)⋅p(θ)
其中第二个等号是由于分母和 θ \theta θ 没有关系。求解这个 θ \theta θ 值后计算
p ( X ∣ θ ) ⋅ p ( θ ) ∫ θ p ( X ∣ θ ) ⋅ p ( θ ) d θ \frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta} θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
,就得到了参数的后验概率。其中 p ( X ∣ θ ) p(X|\theta) p(X∣θ) 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
注意:边缘概率 应为p(x,t|X)=p(x|t,X)p(t|X) 联合概率密度与条件概率的结合
p ( x n e w ∣ X ) = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta p(xnew∣X)=θ∫p(xnew∣θ)⋅p(θ∣X)dθ
其中积分中的被乘数是模型,乘数是后验分布。
1.3 小结
频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。
2、数学基础
-
幂集P®指原集合中所有的子集(包括全集和空集)构成的集族。
-
群:一个集合对二元运算封闭,且有单位元、逆元,满足结合律
-
阿贝尔群:满足交换律的群
-
环:阿贝尔群+乘法
-
域:若逆运算也封闭,则称为域or代数,相当于对除法也封闭了。
-
在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布(iid)
-
【概率论与数理统计】一个视频让你明白分布函数,概率密度函数,分布律,联合概率密度,联合分布函数,联合分布律,边缘概率密度,边缘分布函数都是什么意义和概念_哔哩哔哩_bilibili 理解容易
2.1 二阶中心矩
二阶中心矩是数据与其均值之差的平方的平均值。对于一组数据 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \ldots, x_n\} X={ x1,x2,…,xn},其二阶中心矩 M 2 M_2 M2 的 LaTeX 公式为:
M 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 M_2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 M2=n1i=1∑n(xi−μ)2
其中, μ \mu μ 是数据的均值,即 μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n} \sum_{i=1}^{n} x_i μ=n1∑i=1nxi。但注意,在二阶中心矩的严格定义中,我们通常使用总体均值 μ \mu μ。然而,在实际应用中,当我们只有样本数据时,我们可能会用样本均值 x ˉ \bar{x} xˉ 来代替 μ \mu μ。
2.2 样本方差
样本方差是样本数据与其样本均值之差的平方的平均值,但通常我们会乘以一个因子 n n − 1 \frac{n}{n-1} n−1n(称为贝塞尔校正因子)来得到无偏估计。对于一组样本数据 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \ldots, x_n\} X={
x1,x2,…,xn},其样本方差 s 2 s^2 s2 的 LaTeX 公式为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2
其中, x ˉ \bar{x} xˉ 是样本均值,即 x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1∑i=1nxi。
总结
- 二阶中心矩通常使用总体均值来计算,但在只有样本数据时,也可以用样本均值来近似。
- 样本方差是二阶中心矩在样本数据上的具体应用,但乘以了一个贝塞尔校正因子 n n − 1 \frac{n}{n-1} n−1n 以得到无偏估计。
- LaTeX 公式清晰地展示了这些统计量的数学表达式。
P3 (系列二) 数学基础-概率-高斯分布1 极大似然估计
2.3 高斯分布
2.3.1 一维情况 MLE
- 一维情况 最大似然估计
高斯分布(Gaussian distribution)和正态分布(Normal distribution)在统计学和概率论中是同一个概念的不同称呼。
当说一个随机变量 Y Y Y 服从正态分布(或高斯分布),并且其分布的参数是均值(mean) μ \mu μ 和标准差(standard deviation) σ \sigma σ 时,我们写作 Y ∼ N ( μ , σ 2 ) Y \sim N(\mu, \sigma^2) Y∼N(μ,σ2)。注意,虽然你写的是 Y ∼ N ( μ , σ ) Y \sim N(\mu, \sigma) Y∼N(μ,σ),但通常标准差 σ \sigma σ 是以平方的形式 σ 2 \sigma^2 σ2 出现在正态分布的表示中,以表示方差(variance)。方差是标准差的平方,它衡量了数据分布的离散程度。
正态分布的概率密度函数(Probability Density Function, PDF)为:
f ( y ∣ μ , σ 2 ) = 1 2 π σ 2 e − ( y − μ ) 2 2 σ 2 f(y|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(y-\mu)^2}{2\si