常见概率分布介绍

博客介绍了常见概率分布,如Bernoulli分布、高斯分布、指数分布等,阐述了其定义、适用范围等。还介绍了期望、方差、协方差、相关系数等统计量,包括它们的定义、性质及计算方法,为理解随机变量的特征提供了理论基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见概率分布

Bernoulli分布

Bernoulli分布是单个二值随机变量分布, 单参数ϕ​\phi​ϕ∈[0,1]控制,ϕ​\phi​ϕ给出随机变量等于1的概率. 基本形式为:
P(x)=px(1−p)1−x={p if x=1q if x=0 P(x)=p^{x}(1-p)^{1-x}=\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {q} & {\text { if } x=0}\end{array}\right. P(x)=px(1p)1x={pq if x=1 if x=0

其期望为:
E(x)=∑xP(x)=0×q+1×p=p E(x)=\sum x P(x)=0 \times q+1 \times p=p E(x)=xP(x)=0×q+1×p=p
其方差为:
Var⁡(x)=E[(x−E(x))2]=∑(x−p)2P(x)=pq \operatorname{Var}(x)=E\left[(x-E(x))^{2}\right]=\sum(x-p)^{2} P(x)=p q Var(x)=E[(xE(x))2]=(xp)2P(x)=pq

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中kkk是有限值.Multinoulli分布由向量p⃗∈[0,1]k−1\vec{p}\in[0,1]^{k-1}p[0,1]k1参数化,每个分量pip_ipi表示第iii个状态的概率, 且pk=1−1Tp​p_k=1-1^Tp​pk=11Tp.

适用范围: 伯努利分布适合对离散型随机变量建模.

高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
N(x;μ,σ2)=12πσ2exp(−12σ2(x−μ)2) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21exp(2σ21(xμ)2)
其中, μ​\mu​μσ​\sigma​σ分别是均值和方差, 中心峰值x坐标由μ​\mu​μ给出, 峰的宽度受σ​\sigma​σ控制, 最大点在x=μ​x=\mu​x=μ处取得, 拐点为x=μ±σ​x=\mu\pm\sigma​x=μ±σ

正态分布中,±1σ\sigmaσ、±2σ\sigmaσ、±3σ\sigmaσ下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外, 令μ=0,σ=1​\mu=0,\sigma=1​μ=0,σ=1高斯分布即简化为标准正态分布:
N(x;μ,σ2)=12πexp(−12x2) N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1exp(21x2)
对概率密度函数高效求值:
N(x;μ,β−1)=β2πexp(−12β(x−μ)2) N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β1)=2πβexp(21β(xμ)2)

其中,β=1σ2\beta=\frac{1}{\sigma^2}β=σ21通过参数β∈(0,∞)​\beta∈(0,\infty)​β0来控制分布精度。

何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

  1. 中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
  2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到RnR^nRn空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵Σ​\Sigma​Σ:
N(x;μ⃗,Σ)=1(2π)ndet(Σ)exp(−12(x⃗−μ⃗)TΣ−1(x⃗−μ⃗)) N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ,Σ)=(2π)ndet(Σ)1exp(21(xμ)TΣ1(xμ))
对多为正态分布概率密度高效求值:
N(x;μ⃗,β⃗−1)=det(β⃗)(2π)nexp(−12(x⃗−μ⃗)Tβ(x⃗−μ⃗)) N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right) N(x;μ,β1)=det(β)(2π)nexp(21(xμ)Tβ(xμ))
此处,β⃗\vec\betaβ是一个精度矩阵。

指数分布

深度学习中, 指数分布用来描述在x=0​x=0​x=0点处取得边界点的分布, 指数分布定义如下:
p(x;λ)=λIx≥0exp(−λx) p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx0exp(λx)
指数分布用指示函数Ix≥0​I_{x\geq 0}​Ix0来使x​x​x取负值时的概率为零。

Laplace 分布

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 μ\muμ处设置概率质量的峰值
Laplace(x;μ;γ)=12γexp(−∣x−μ∣γ) Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1exp(γxμ)

Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克δ​\delta​δ函数(也称为单位脉冲函数)定义如下:
p(x)=δ(x−μ),x≠μ p(x)=\delta(x-\mu), x\neq \mu p(x)=δ(xμ),x=μ

∫abδ(x−μ)dx=1,a<μ<b \int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b abδ(xμ)dx=1,a<μ<b

Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现
p^(x⃗)=1m∑i=1mδ(x⃗−x⃗(i)) \hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^(x)=m1i=1mδ(xx(i))
, 其中, m个点x1,...,xmx^{1},...,x^{m}x1,...,xm是给定的数据集, 经验分布将概率密度1m​\frac{1}{m}​m1赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

期望、方差、协方差、相关系数

期望

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

  • 线性运算: E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+cE(ax+by+c)=aE(x)+bE(y)+c
  • 推广形式: E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}E(k=1naixi+c)=k=1naiE(xi)+c
  • 函数期望:设f(x)f(x)f(x)xxx的函数,则f(x)f(x)f(x)的期望为
    • 离散函数: E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}E(f(x))=k=1nf(xk)P(xk)
    • 连续函数: E(f(x))=∫−∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}E(f(x))=+f(x)p(x)dx

注意:

  • 函数的期望大于等于期望的函数(Jensen不等式),即E(f(x))⩾f(E(x))E(f(x))\geqslant f(E(x))E(f(x))f(E(x))
  • 一般情况下,乘积的期望不等于期望的乘积。
  • 如果XXXYYY相互独立,则E(xy)=E(x)E(y)​E(xy)=E(x)E(y)​E(xy)=E(x)E(y)

方差

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

Var(x)=E((x−E(x))2) Var(x) = E((x-E(x))^2) Var(x)=E((xE(x))2)

方差性质:

1)Var(x)=E(x2)−E(x)2Var(x) = E(x^2) -E(x)^2Var(x)=E(x2)E(x)2
2)常数的方差为0;
3)方差不满足线性性质;
4)如果XXXYYY相互独立, Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)Var(ax+by)=a2Var(x)+b2Var(y)

协方差

协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为:
Cov(x,y)=E((x−E(x))(y−E(y))) Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((xE(x))(yE(y)))

方差是一种特殊的协方差。当X=YX=YX=Y时,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)

协方差性质:

1)独立变量的协方差为0。
2)协方差计算公式:

Cov(∑i=1maixi,∑j=1mbjyj)=∑i=1m∑j=1maibjCov(xiyi) Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1maixi,j=1mbjyj)=i=1mj=1maibjCov(xiyi)

3)特殊情况:

Cov(a+bx,c+dy)=bdCov(x,y) Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)

相关系数

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:
Corr(x,y)=Cov(x,y)Var(x)Var(y) Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y)Cov(x,y)

相关系数的性质:
1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。
2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cpp编程小茶馆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值