指数族分布
定义
Exponential Families of Distributions。指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Gamma 分布等一系列分布。
指数族分布指具有如下特定形式的概率分布的参数集合:
p
X
(
x
∣
θ
)
=
h
(
x
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
−
A
(
θ
)
]
p_X(x\mid \theta)=h(x)exp[\eta(\theta)\cdot T(x)-A(\theta)]
pX(x∣θ)=h(x)exp[η(θ)⋅T(x)−A(θ)]
其中,
T
(
x
)
、
h
(
x
)
、
η
(
θ
)
、
A
(
θ
)
T(x)、h(x)、\eta(\theta)、A(\theta)
T(x)、h(x)、η(θ)、A(θ) 是已知函数,也就是说只有参数
θ
\theta
θ 未知。
θ
\theta
θ 称为族的参数。
A
(
θ
)
A(\theta)
A(θ)也叫 log partition-function(log配分函数)。
也有其它等效形式:
p
X
(
x
∣
θ
)
=
h
(
x
)
g
(
θ
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
]
p_X(x\mid \theta)=h(x)g(\theta)exp[\eta(\theta)\cdot T(x)]
pX(x∣θ)=h(x)g(θ)exp[η(θ)⋅T(x)]
或:
p
X
(
x
∣
θ
)
=
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
−
A
(
θ
)
+
B
(
x
)
]
p_X(x\mid \theta)=exp[\eta(\theta)\cdot T(x)-A(\theta)+B(x)]
pX(x∣θ)=exp[η(θ)⋅T(x)−A(θ)+B(x)]
或
p
X
(
x
∣
θ
)
=
h
(
x
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
]
⋅
e
x
p
[
−
A
(
θ
)
]
=
1
e
x
p
[
A
(
θ
)
]
h
(
x
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
]
\begin{aligned} p_X(x\mid \theta)&=h(x)exp[\eta(\theta)\cdot T(x)] \cdot exp[-A(\theta)]\\ &=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \end{aligned}
pX(x∣θ)=h(x)exp[η(θ)⋅T(x)]⋅exp[−A(θ)]=exp[A(θ)]1h(x)exp[η(θ)⋅T(x)]
配分函数
p ( x ∣ θ ) = 1 z p ^ ( x ∣ θ ) z 是归一化因子,跟x没有关系 p(x|\theta)=\dfrac{1}{z}\hat{p}(x|\theta)\qquad z\text{是归一化因子,跟x没有关系} p(x∣θ)=z1p^(x∣θ)z是归一化因子,跟x没有关系
配分函数是一个归一化的函数,目的使函数积分值为1。
∫
p
(
x
∣
θ
)
d
x
=
∫
1
z
p
^
(
x
∣
θ
)
d
x
=
1
z
=
∫
p
^
(
x
∣
θ
)
d
x
\int p(x|\theta)dx=\int \dfrac{1}{z}\hat{p}(x|\theta)dx=1 \\ z=\int\hat{p}(x|\theta)dx
∫p(x∣θ)dx=∫z1p^(x∣θ)dx=1z=∫p^(x∣θ)dx
A
(
θ
)
A(\theta)
A(θ) 其实是这么来的:
p
(
x
∣
θ
)
=
1
e
x
p
[
A
(
θ
)
]
h
(
x
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
]
∫
p
(
x
∣
θ
)
d
x
=
∫
1
e
x
p
[
A
(
θ
)
]
h
(
x
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
]
d
x
=
1
p(x|\theta)=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \\ \int p(x|\theta)dx=\int\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)]dx=1
p(x∣θ)=exp[A(θ)]1h(x)exp[η(θ)⋅T(x)]∫p(x∣θ)dx=∫exp[A(θ)]1h(x)exp[η(θ)⋅T(x)]dx=1
所以,
A
(
θ
)
=
log
∫
h
(
x
)
e
x
p
[
η
(
θ
)
⋅
T
(
x
)
]
d
x
A(\theta)=\log\int h(x)exp[\eta(\theta)\cdot T(x)]dx
A(θ)=log∫h(x)exp[η(θ)⋅T(x)]dx
充分统计量
就是 T ( x ) T(x) T(x),统计量就是关于样本的一个函数,充分就表示该统计量包含了表示样本总体特征。有这个充分统计量,就可以不用考虑样本,这样的好处是节省空间。比如高斯分布的充分统计量就是均值和方差,这样通过计算样本的均值和方差进而得到其明确的分布。
共轭
指数族分布常常具有共轭的性质。共轭先验使得先验和后验的形式一样,便于计算。
什么是共轭?
我们先看贝叶斯公式
p
(
z
∣
x
)
=
p
(
x
∣
z
)
p
(
z
)
∫
z
p
(
x
∣
z
)
p
(
z
)
d
z
p(z|x)=\dfrac{p(x|z)p(z)}{\int_zp (x|z)p(z)dz}
p(z∣x)=∫zp(x∣z)p(z)dzp(x∣z)p(z)
后验
p
(
z
∣
x
)
p(z|x)
p(z∣x),由于分母上的积分是比较难求的,所以直接求后验是比较困难的。共轭的意思就是给定特殊的似然
p
(
x
∣
z
)
p(x|z)
p(x∣z) 下,后验
p
(
z
∣
x
)
p(z|x)
p(z∣x) 和先验
p
(
z
)
p(z)
p(z) 会形成相同的分布。那计算上就不用求分母那么复杂的积分了。
例如,如果似然 p ( x ∣ z ) p(x|z) p(x∣z) 为二项分布, p ( z ) p(z) p(z) 为Beta分布,那么后验分布也为 p ( z ∣ x ) p(z|x) p(z∣x) 也为Beta分布。即 p ( z ∣ x ) ∝ p ( x ∣ z ) p ( z ) p(z|x) \propto p(x|z)p(z) p(z∣x)∝p(x∣z)p(z)。
最大熵
指数族分布满足最大熵原理。
什么是最大熵?
首先信息熵的定义:
H
(
p
)
=
∫
−
p
(
x
)
log
p
(
x
)
d
x
(
连续
)
H
(
p
)
=
−
∑
n
=
1
N
p
(
x
)
log
p
(
x
)
d
x
(
离散
)
H(p)=\int-p(x)\log p(x)dx \qquad(\text{连续}) \\ H(p)=-\sum_{n=1}^N p(x)\log p(x)dx \qquad(\text{离散})
H(p)=∫−p(x)logp(x)dx(连续)H(p)=−n=1∑Np(x)logp(x)dx(离散)
假设数据是离散的,对一个离散随机变量x,有
n
n
n 个特征,其概率为
p
n
p_n
pn ,现在要求最大的信息熵,那么最大熵可以表示成一个约束优化问题:
max
{
H
(
p
)
}
=
min
{
∑
n
=
1
N
p
n
log
p
n
}
s
.
t
.
∑
n
=
1
N
p
n
=
1
\max\{H(p)\}=\min\{\sum_{n=1}^N p_n\log p_n\}\quad s.t. \sum_{n=1}^N p_n=1
max{H(p)}=min{n=1∑Npnlogpn}s.t.n=1∑Npn=1
这种熟悉的约束优化问题呢,我们可以利用拉格朗日乘子法来求解,
L
(
p
,
λ
)
=
∑
n
=
1
N
p
n
log
p
n
+
λ
(
1
−
∑
n
=
1
N
p
n
)
L(p,\lambda)=\sum_{n=1}^N p_n\log p_n+\lambda(1-\sum_{n=1}^N p_n)
L(p,λ)=n=1∑Npnlogpn+λ(1−n=1∑Npn)
求导下,
∂
L
∂
p
n
=
log
p
n
+
1
−
λ
=
0
⟹
p
n
=
e
x
p
(
λ
−
1
)
\dfrac{\partial L}{\partial p_n}=\log p_n+1-\lambda=0 \\ \Longrightarrow p_n=exp(\lambda-1)
∂pn∂L=logpn+1−λ=0⟹pn=exp(λ−1)
λ \lambda λ是常数,所以 p ^ 1 = p ^ 2 = . . . = p ^ n = 1 N \hat{p}_1=\hat{p}_2=...=\hat{p}_n=\dfrac{1}{N} p^1=p^2=...=p^n=N1
可以发现离散条件下, $ p_n$ 服从均匀分布的时候熵最大。也就是说,离散条件下,随机变量在无信息先验下的最大熵分布就是均匀分布。
那当我们有部分数据集时,即可以从数据集中获得一些先验知识,比如经验分布
p
^
(
x
)
=
c
o
u
n
t
(
x
)
N
\hat{p}(x)=\frac{count(x)}{N}
p^(x)=Ncount(x),可以进一步计算得其经验期望:
E
p
^
[
f
(
x
)
]
=
Δ
E_{\hat{p}}[f(x)]=\Delta
Ep^[f(x)]=Δ
那么我们可以把这些先验知识也加进约束。于是最大熵为
max
{
H
(
p
)
}
=
min
{
∑
x
p
(
x
)
log
p
(
x
)
}
s
.
t
.
∑
n
=
1
N
p
n
=
1
,
E
p
^
[
f
(
x
)
]
=
Δ
\max\{H(p)\}=\min\{\sum_x p(x)\log p(x)\}\quad s.t. \sum_{n=1}^N p_n=1,E_{\hat{p}}[f(x)]=\Delta
max{H(p)}=min{x∑p(x)logp(x)}s.t.n=1∑Npn=1,Ep^[f(x)]=Δ
还是应用拉格朗日乘子法,
L
(
p
,
λ
0
,
λ
)
=
∑
n
=
1
N
p
(
x
n
)
log
p
(
x
n
)
+
λ
0
(
1
−
∑
n
=
1
N
p
n
)
+
λ
T
(
Δ
−
E
p
^
[
f
(
x
)
]
)
L(p,\lambda_0,\lambda)=\sum_{n=1}^N p(x_n)\log p(x_n)+\lambda_0(1-\sum_{n=1}^N p_n)+\lambda^T(\Delta-E_{\hat{p}}[f(x)])
L(p,λ0,λ)=n=1∑Np(xn)logp(xn)+λ0(1−n=1∑Npn)+λT(Δ−Ep^[f(x)])
求导,
∂
∂
p
(
x
)
L
=
∑
n
=
1
N
(
log
p
(
x
)
+
1
)
−
∑
n
=
1
N
λ
0
−
∑
n
=
1
N
λ
T
f
(
x
)
=
0
⟹
p
(
x
)
=
e
x
p
{
λ
0
−
1
+
λ
T
f
(
x
)
}
\begin{aligned} \dfrac{\partial }{\partial p(x)}L&=\sum_{n=1}^N(\log p(x)+1)-\sum_{n=1}^N\lambda_0-\sum_{n=1}^N\lambda^Tf(x)=0\\ &\Longrightarrow p(x)=exp\{\lambda_0-1+\lambda^Tf(x)\} \end{aligned}
∂p(x)∂L=n=1∑N(logp(x)+1)−n=1∑Nλ0−n=1∑NλTf(x)=0⟹p(x)=exp{λ0−1+λTf(x)}
这是一个指数族分布。在满足既定事实的条件下,随机变量对应的最大熵分布是一个指数族分布。
几种指数族分布
下面介绍常见的几种指数族分布。
高斯分布
若随机变量 X X X 服从一个均值为 μ \mu μ,方差为 σ \sigma σ 的高斯分布,记为: X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)
其概率密度函数为:
f
(
x
∣
μ
,
σ
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
f(x\mid \mu,\sigma)=\dfrac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f(x∣μ,σ)=σ2π1e−2σ2(x−μ)2
写成指数形式:
f
(
x
∣
μ
,
σ
)
=
1
2
π
e
x
p
{
μ
σ
2
x
−
1
2
σ
2
x
2
−
1
2
σ
2
μ
2
−
l
o
g
σ
2
2
}
f(x\mid \mu,\sigma)=\dfrac{1}{\sqrt{2\pi}}exp\{\dfrac{\mu}{\sigma^2}x-\dfrac{1}{2\sigma^2}x^2-\dfrac{1}{2\sigma^2}\mu^2-\dfrac{log\sigma^2}{2}\}
f(x∣μ,σ)=2π1exp{σ2μx−2σ21x2−2σ21μ2−2logσ2}
变量服从高斯分布时,独立一定不相关,不相关一定独立。
相关性反应的实际上是一种线性关系,而独立性则反映的是更为一般的线性无关性。
伯努利分布
写成指数形式:
f
(
x
∣
π
)
=
π
x
(
1
−
π
)
1
−
x
=
e
x
p
{
x
l
o
g
(
π
1
−
π
)
+
l
o
g
(
1
−
π
)
}
f(x\mid \pi)=\pi^x(1-\pi)^{1-x}=exp\{xlog(\dfrac{\pi}{1-\pi})+log(1-\pi) \}
f(x∣π)=πx(1−π)1−x=exp{xlog(1−ππ)+log(1−π)}
泊松分布与指数分布
泊松分布表达式:
- X ∼ P ( λ ) , λ = X ‾ X \sim P(\lambda),\lambda=\overline X X∼P(λ),λ=X
- $P(X=k)=\dfrac{\lambda k}{k!}e{-\lambda} $
- E ( X ) = λ E(X)=\lambda E(X)=λ
写成指数形式:
p
(
x
∣
λ
)
=
1
x
!
e
x
p
{
x
l
o
g
λ
−
λ
}
p(x\mid \lambda)=\dfrac{1}{x!}exp\{xlog\lambda-\lambda \}
p(x∣λ)=x!1exp{xlogλ−λ}
泊松过程:引入时间段,t
- 公式:$P(X=k,t)=\dfrac{(\lambda t)k}{k!}e{-\lambda t} $
指数分布表达式:
- Y ∼ E x p ( λ ) Y\sim Exp(\lambda) Y∼Exp(λ)
- E ( Y ) = 1 λ E(Y)=\dfrac{1}{\lambda} E(Y)=λ1
由分布函数: F ( y ) = P ( Y ≤ y ) = { 1 − e − λ y y ⩾ 0 0 y < 0 F(y)=P(Y\le y)=\begin{cases}1-e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases} F(y)=P(Y≤y)={1−e−λy0y⩾0y<0 ,
求导可得概率密度函数,也就是指数分布:
p
(
y
)
=
{
λ
e
−
λ
y
y
⩾
0
0
y
<
0
p(y)=\begin{cases}\lambda e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases}
p(y)={λe−λy0y⩾0y<0
写成指数形式:
p
(
y
∣
λ
)
=
λ
e
−
λ
y
=
e
x
p
{
−
λ
y
+
l
o
g
(
λ
)
}
p(y\mid \lambda)=\lambda e^{-\lambda y}=exp\{-\lambda y+log(\lambda)\}
p(y∣λ)=λe−λy=exp{−λy+log(λ)}
指数分布和几何分布一样具有无记忆性。
伽马分布
写成指数形式:
f
(
x
∣
k
,
θ
)
=
1
Γ
(
k
)
θ
k
x
k
−
1
e
−
x
θ
=
e
x
p
{
(
k
−
1
)
l
o
g
(
x
)
−
x
θ
−
k
l
o
g
(
θ
)
−
l
o
g
Γ
(
k
)
}
f(x\mid k,\theta)=\dfrac{1}{\Gamma(k)\theta^k}x^{k-1}e^{\frac{-x}{\theta}}=exp\{(k-1)log(x)-\dfrac{x}{\theta}-klog(\theta)-log\Gamma(k) \}
f(x∣k,θ)=Γ(k)θk1xk−1eθ−x=exp{(k−1)log(x)−θx−klog(θ)−logΓ(k)}
参考
- 机器学习白板推导系列课程
- 指数族分布|机器学习推导系列(九) - 简书 (jianshu.com)

指数族分布包括高斯、伯努利、泊松等多种分布,具有特定的数学形式。文章介绍了指数族分布的定义、配分函数、充分统计量、共轭性质、最大熵原理,并列举了常见指数族分布如高斯、伯努利和泊松分布的特性。通过理解指数族分布,有助于在概率论和机器学习等领域进行统计推断。
778

被折叠的 条评论
为什么被折叠?



