常见概率分布介绍

原创已于 2022-02-14 16:51:27 修改 · 5.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#常见概率分布

于 2019-07-11 18:44:38 首次发布

机器学习专栏收录该内容

12 篇文章

订阅专栏

博客介绍了常见概率分布，如Bernoulli分布、高斯分布、指数分布等，阐述了其定义、适用范围等。还介绍了期望、方差、协方差、相关系数等统计量，包括它们的定义、性质及计算方法，为理解随机变量的特征提供了理论基础。

常见概率分布

Bernoulli分布

Bernoulli分布是单个二值随机变量分布, 单参数 $ϕ\phi$ ∈[0,1]控制, $ϕ\phi$ 给出随机变量等于1的概率. 基本形式为:
$P(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {q} & {\text { if } x=0}\end{array}\right.$

其期望为：
$E(x)=\sum x P(x)=0 \times q+1 \times p=p$
其方差为：
$\operatorname{Var}(x)=E\left[(x-E(x))^{2}\right]=\sum(x-p)^{2} P(x)=p q$

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中 $k$ 是有限值.Multinoulli分布由向量 $p⃗∈[0,1]k−1\vec{p}\in[0,1]^{k-1}$ 参数化,每个分量 $p_i$ 表示第 $i$ 个状态的概率, 且 $p_k=1-1^Tp$ .

适用范围: 伯努利分布适合对离散型随机变量建模.

高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$
其中, $μ\mu$ 和 $σ\sigma$ 分别是均值和方差, 中心峰值x坐标由 $μ\mu$ 给出, 峰的宽度受 $σ\sigma$ 控制, 最大点在 $x=μx=\mu$ 处取得, 拐点为 $x=μ±σx=\mu\pm\sigma$

正态分布中，±1 $σ\sigma$ 、±2 $σ\sigma$ 、±3 $σ\sigma$ 下的概率分别是68.3%、95.5%、99.73%，这3个数最好记住。

此外, 令 $μ=0,σ=1\mu=0,\sigma=1$ 高斯分布即简化为标准正态分布:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$
对概率密度函数高效求值:
$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$

其中， $β=1σ2\beta=\frac{1}{\sigma^2}$ 通过参数 $β∈（0，∞）\beta∈（0，\infty）$ 来控制分布精度。

何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到 $R^n$ 空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵 $Σ\Sigma$ :
$N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)$
对多为正态分布概率密度高效求值:
$N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$
此处， $β⃗\vec\beta$ 是一个精度矩阵。

指数分布

深度学习中, 指数分布用来描述在 $x = 0 $ 点处取得边界点的分布, 指数分布定义如下:
$p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})$
指数分布用指示函数 $Ix≥0I_{x\geq 0}$ 来使 $x $ 取负值时的概率为零。

Laplace 分布

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点 $μ\mu$ 处设置概率质量的峰值
$Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$

Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克 $δ\delta$ 函数(也称为单位脉冲函数)定义如下:
$p(x)=\delta(x-\mu), x\neq \mu$

$\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b$

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现
$p^(x⃗)=1m∑i=1mδ(x⃗−x⃗(i)) \hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$
, 其中, m个点 $x^{1},...,x^{m}$ 是给定的数据集, 经验分布将概率密度 $1m\frac{1}{m}$ 赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

期望、方差、协方差、相关系数

期望

在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

线性运算： $E (a x + b y + c) = a E (x) + b E (y) + c$
推广形式： $E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}$
函数期望：设 $f (x)$ 为 $x$ 的函数，则 $f (x)$ 的期望为
- 离散函数： $E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
- 连续函数： $E(f(x))=∫−∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$