指数族分布

指数族分布包括高斯、伯努利、泊松等多种分布,具有特定的数学形式。文章介绍了指数族分布的定义、配分函数、充分统计量、共轭性质、最大熵原理,并列举了常见指数族分布如高斯、伯努利和泊松分布的特性。通过理解指数族分布,有助于在概率论和机器学习等领域进行统计推断。
部署运行你感兴趣的模型镜像

指数族分布

定义

Exponential Families of Distributions。指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Gamma 分布等一系列分布。

指数族分布指具有如下特定形式的概率分布的参数集合:
p X ( x ∣ θ ) = h ( x ) e x p [ η ( θ ) ⋅ T ( x ) − A ( θ ) ] p_X(x\mid \theta)=h(x)exp[\eta(\theta)\cdot T(x)-A(\theta)] pX(xθ)=h(x)exp[η(θ)T(x)A(θ)]
其中, T ( x ) 、 h ( x ) 、 η ( θ ) 、 A ( θ ) T(x)、h(x)、\eta(\theta)、A(\theta) T(x)h(x)η(θ)A(θ) 是已知函数,也就是说只有参数 θ \theta θ 未知。 θ \theta θ 称为族的参数。 A ( θ ) A(\theta) A(θ)也叫 log partition-function(log配分函数)。

也有其它等效形式:
p X ( x ∣ θ ) = h ( x ) g ( θ ) e x p [ η ( θ ) ⋅ T ( x ) ] p_X(x\mid \theta)=h(x)g(\theta)exp[\eta(\theta)\cdot T(x)] pX(xθ)=h(x)g(θ)exp[η(θ)T(x)]
或:
p X ( x ∣ θ ) = e x p [ η ( θ ) ⋅ T ( x ) − A ( θ ) + B ( x ) ] p_X(x\mid \theta)=exp[\eta(\theta)\cdot T(x)-A(\theta)+B(x)] pX(xθ)=exp[η(θ)T(x)A(θ)+B(x)]


p X ( x ∣ θ ) = h ( x ) e x p [ η ( θ ) ⋅ T ( x ) ] ⋅ e x p [ − A ( θ ) ] = 1 e x p [ A ( θ ) ] h ( x ) e x p [ η ( θ ) ⋅ T ( x ) ] \begin{aligned} p_X(x\mid \theta)&=h(x)exp[\eta(\theta)\cdot T(x)] \cdot exp[-A(\theta)]\\ &=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \end{aligned} pX(xθ)=h(x)exp[η(θ)T(x)]exp[A(θ)]=exp[A(θ)]1h(x)exp[η(θ)T(x)]

配分函数

p ( x ∣ θ ) = 1 z p ^ ( x ∣ θ ) z 是归一化因子,跟x没有关系 p(x|\theta)=\dfrac{1}{z}\hat{p}(x|\theta)\qquad z\text{是归一化因子,跟x没有关系} p(xθ)=z1p^(xθ)z是归一化因子,x没有关系

配分函数是一个归一化的函数,目的使函数积分值为1。
∫ p ( x ∣ θ ) d x = ∫ 1 z p ^ ( x ∣ θ ) d x = 1 z = ∫ p ^ ( x ∣ θ ) d x \int p(x|\theta)dx=\int \dfrac{1}{z}\hat{p}(x|\theta)dx=1 \\ z=\int\hat{p}(x|\theta)dx p(xθ)dx=z1p^(xθ)dx=1z=p^(xθ)dx
A ( θ ) A(\theta) A(θ) 其实是这么来的:
p ( x ∣ θ ) = 1 e x p [ A ( θ ) ] h ( x ) e x p [ η ( θ ) ⋅ T ( x ) ] ∫ p ( x ∣ θ ) d x = ∫ 1 e x p [ A ( θ ) ] h ( x ) e x p [ η ( θ ) ⋅ T ( x ) ] d x = 1 p(x|\theta)=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \\ \int p(x|\theta)dx=\int\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)]dx=1 p(xθ)=exp[A(θ)]1h(x)exp[η(θ)T(x)]p(xθ)dx=exp[A(θ)]1h(x)exp[η(θ)T(x)]dx=1
所以,
A ( θ ) = log ⁡ ∫ h ( x ) e x p [ η ( θ ) ⋅ T ( x ) ] d x A(\theta)=\log\int h(x)exp[\eta(\theta)\cdot T(x)]dx A(θ)=logh(x)exp[η(θ)T(x)]dx

充分统计量

就是 T ( x ) T(x) T(x),统计量就是关于样本的一个函数,充分就表示该统计量包含了表示样本总体特征。有这个充分统计量,就可以不用考虑样本,这样的好处是节省空间。比如高斯分布的充分统计量就是均值和方差,这样通过计算样本的均值和方差进而得到其明确的分布。

共轭

指数族分布常常具有共轭的性质。共轭先验使得先验和后验的形式一样,便于计算。

什么是共轭?

我们先看贝叶斯公式
p ( z ∣ x ) = p ( x ∣ z ) p ( z ) ∫ z p ( x ∣ z ) p ( z ) d z p(z|x)=\dfrac{p(x|z)p(z)}{\int_zp (x|z)p(z)dz} p(zx)=zp(xz)p(z)dzp(xz)p(z)
后验 p ( z ∣ x ) p(z|x) p(zx),由于分母上的积分是比较难求的,所以直接求后验是比较困难的。共轭的意思就是给定特殊的似然 p ( x ∣ z ) p(x|z) p(xz) 下,后验 p ( z ∣ x ) p(z|x) p(zx) 和先验 p ( z ) p(z) p(z) 会形成相同的分布。那计算上就不用求分母那么复杂的积分了。

例如,如果似然 p ( x ∣ z ) p(x|z) p(xz) 为二项分布, p ( z ) p(z) p(z) 为Beta分布,那么后验分布也为 p ( z ∣ x ) p(z|x) p(zx) 也为Beta分布。即 p ( z ∣ x ) ∝ p ( x ∣ z ) p ( z ) p(z|x) \propto p(x|z)p(z) p(zx)p(xz)p(z)

最大熵

指数族分布满足最大熵原理。

什么是最大熵?

首先信息熵的定义:
H ( p ) = ∫ − p ( x ) log ⁡ p ( x ) d x ( 连续 ) H ( p ) = − ∑ n = 1 N p ( x ) log ⁡ p ( x ) d x ( 离散 ) H(p)=\int-p(x)\log p(x)dx \qquad(\text{连续}) \\ H(p)=-\sum_{n=1}^N p(x)\log p(x)dx \qquad(\text{离散}) H(p)=p(x)logp(x)dx(连续)H(p)=n=1Np(x)logp(x)dx(离散)
假设数据是离散的,对一个离散随机变量x,有 n n n 个特征,其概率为 p n p_n pn ,现在要求最大的信息熵,那么最大熵可以表示成一个约束优化问题:
max ⁡ { H ( p ) } = min ⁡ { ∑ n = 1 N p n log ⁡ p n } s . t . ∑ n = 1 N p n = 1 \max\{H(p)\}=\min\{\sum_{n=1}^N p_n\log p_n\}\quad s.t. \sum_{n=1}^N p_n=1 max{H(p)}=min{n=1Npnlogpn}s.t.n=1Npn=1
这种熟悉的约束优化问题呢,我们可以利用拉格朗日乘子法来求解,
L ( p , λ ) = ∑ n = 1 N p n log ⁡ p n + λ ( 1 − ∑ n = 1 N p n ) L(p,\lambda)=\sum_{n=1}^N p_n\log p_n+\lambda(1-\sum_{n=1}^N p_n) L(p,λ)=n=1Npnlogpn+λ(1n=1Npn)
求导下,
∂ L ∂ p n = log ⁡ p n + 1 − λ = 0 ⟹ p n = e x p ( λ − 1 ) \dfrac{\partial L}{\partial p_n}=\log p_n+1-\lambda=0 \\ \Longrightarrow p_n=exp(\lambda-1) pnL=logpn+1λ=0pn=exp(λ1)

λ \lambda λ是常数,所以 p ^ 1 = p ^ 2 = . . . = p ^ n = 1 N \hat{p}_1=\hat{p}_2=...=\hat{p}_n=\dfrac{1}{N} p^1=p^2=...=p^n=N1

可以发现离散条件下, $ p_n$ 服从均匀分布的时候熵最大。也就是说,离散条件下,随机变量在无信息先验下的最大熵分布就是均匀分布。

那当我们有部分数据集时,即可以从数据集中获得一些先验知识,比如经验分布 p ^ ( x ) = c o u n t ( x ) N \hat{p}(x)=\frac{count(x)}{N} p^(x)=Ncount(x),可以进一步计算得其经验期望:
E p ^ [ f ( x ) ] = Δ E_{\hat{p}}[f(x)]=\Delta Ep^[f(x)]=Δ
那么我们可以把这些先验知识也加进约束。于是最大熵为
max ⁡ { H ( p ) } = min ⁡ { ∑ x p ( x ) log ⁡ p ( x ) } s . t . ∑ n = 1 N p n = 1 , E p ^ [ f ( x ) ] = Δ \max\{H(p)\}=\min\{\sum_x p(x)\log p(x)\}\quad s.t. \sum_{n=1}^N p_n=1,E_{\hat{p}}[f(x)]=\Delta max{H(p)}=min{xp(x)logp(x)}s.t.n=1Npn=1,Ep^[f(x)]=Δ

还是应用拉格朗日乘子法,
L ( p , λ 0 , λ ) = ∑ n = 1 N p ( x n ) log ⁡ p ( x n ) + λ 0 ( 1 − ∑ n = 1 N p n ) + λ T ( Δ − E p ^ [ f ( x ) ] ) L(p,\lambda_0,\lambda)=\sum_{n=1}^N p(x_n)\log p(x_n)+\lambda_0(1-\sum_{n=1}^N p_n)+\lambda^T(\Delta-E_{\hat{p}}[f(x)]) L(p,λ0,λ)=n=1Np(xn)logp(xn)+λ0(1n=1Npn)+λT(ΔEp^[f(x)])

求导,
∂ ∂ p ( x ) L = ∑ n = 1 N ( log ⁡ p ( x ) + 1 ) − ∑ n = 1 N λ 0 − ∑ n = 1 N λ T f ( x ) = 0 ⟹ p ( x ) = e x p { λ 0 − 1 + λ T f ( x ) } \begin{aligned} \dfrac{\partial }{\partial p(x)}L&=\sum_{n=1}^N(\log p(x)+1)-\sum_{n=1}^N\lambda_0-\sum_{n=1}^N\lambda^Tf(x)=0\\ &\Longrightarrow p(x)=exp\{\lambda_0-1+\lambda^Tf(x)\} \end{aligned} p(x)L=n=1N(logp(x)+1)n=1Nλ0n=1NλTf(x)=0p(x)=exp{λ01+λTf(x)}
这是一个指数族分布。在满足既定事实的条件下,随机变量对应的最大熵分布是一个指数族分布。

几种指数族分布

下面介绍常见的几种指数族分布。

高斯分布

若随机变量 X X X 服从一个均值为 μ \mu μ,方差为 σ \sigma σ 的高斯分布,记为: X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)

概率密度函数为:
f ( x ∣ μ , σ ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x\mid \mu,\sigma)=\dfrac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(xμ,σ)=σ2π 1e2σ2(xμ)2
写成指数形式
f ( x ∣ μ , σ ) = 1 2 π e x p { μ σ 2 x − 1 2 σ 2 x 2 − 1 2 σ 2 μ 2 − l o g σ 2 2 } f(x\mid \mu,\sigma)=\dfrac{1}{\sqrt{2\pi}}exp\{\dfrac{\mu}{\sigma^2}x-\dfrac{1}{2\sigma^2}x^2-\dfrac{1}{2\sigma^2}\mu^2-\dfrac{log\sigma^2}{2}\} f(xμ,σ)=2π 1exp{σ2μx2σ21x22σ21μ22logσ2}
变量服从高斯分布时,独立一定不相关,不相关一定独立。

相关性反应的实际上是一种线性关系,而独立性则反映的是更为一般的线性无关性。

伯努利分布

写成指数形式
f ( x ∣ π ) = π x ( 1 − π ) 1 − x = e x p { x l o g ( π 1 − π ) + l o g ( 1 − π ) } f(x\mid \pi)=\pi^x(1-\pi)^{1-x}=exp\{xlog(\dfrac{\pi}{1-\pi})+log(1-\pi) \} f(xπ)=πx(1π)1x=exp{xlog(1ππ)+log(1π)}

泊松分布与指数分布

泊松分布表达式

  • X ∼ P ( λ ) , λ = X ‾ X \sim P(\lambda),\lambda=\overline X XP(λ),λ=X
  • $P(X=k)=\dfrac{\lambda k}{k!}e{-\lambda} $
  • E ( X ) = λ E(X)=\lambda E(X)=λ

写成指数形式
p ( x ∣ λ ) = 1 x ! e x p { x l o g λ − λ } p(x\mid \lambda)=\dfrac{1}{x!}exp\{xlog\lambda-\lambda \} p(xλ)=x!1exp{xlogλλ}
泊松过程:引入时间段,t

  • 公式:$P(X=k,t)=\dfrac{(\lambda t)k}{k!}e{-\lambda t} $

指数分布表达式:

  • Y ∼ E x p ( λ ) Y\sim Exp(\lambda) YExp(λ)
  • E ( Y ) = 1 λ E(Y)=\dfrac{1}{\lambda} E(Y)=λ1

由分布函数: F ( y ) = P ( Y ≤ y ) = { 1 − e − λ y y ⩾ 0 0 y < 0 F(y)=P(Y\le y)=\begin{cases}1-e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases} F(y)=P(Yy)={1eλy0y0y<0 ,

求导可得概率密度函数,也就是指数分布:
p ( y ) = { λ e − λ y y ⩾ 0 0 y < 0 p(y)=\begin{cases}\lambda e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases} p(y)={λeλy0y0y<0
写成指数形式:
p ( y ∣ λ ) = λ e − λ y = e x p { − λ y + l o g ( λ ) } p(y\mid \lambda)=\lambda e^{-\lambda y}=exp\{-\lambda y+log(\lambda)\} p(yλ)=λeλy=exp{λy+log(λ)}
指数分布和几何分布一样具有无记忆性。

伽马分布

写成指数形式
f ( x ∣ k , θ ) = 1 Γ ( k ) θ k x k − 1 e − x θ = e x p { ( k − 1 ) l o g ( x ) − x θ − k l o g ( θ ) − l o g Γ ( k ) } f(x\mid k,\theta)=\dfrac{1}{\Gamma(k)\theta^k}x^{k-1}e^{\frac{-x}{\theta}}=exp\{(k-1)log(x)-\dfrac{x}{\theta}-klog(\theta)-log\Gamma(k) \} f(xk,θ)=Γ(k)θk1xk1eθx=exp{(k1)log(x)θxklog(θ)logΓ(k)}

参考

  1. 机器学习白板推导系列课程
  2. 指数族分布|机器学习推导系列(九) - 简书 (jianshu.com)

您可能感兴趣的与本文相关的镜像

ComfyUI

ComfyUI

AI应用
ComfyUI

ComfyUI是一款易于上手的工作流设计工具,具有以下特点:基于工作流节点设计,可视化工作流搭建,快速切换工作流,对显存占用小,速度快,支持多种插件,如ADetailer、Controlnet和AnimateDIFF等

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值