Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数,所以,首先了解一下Gamma函数。
1. Gamma函数
首先看其表达式
Γ(x)=∫∞0tx−1e−tdt
这样的表达看懂都很难,更不知道那些数学家怎么想出来的。据LDA数学八卦中记录,在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利),最终由欧拉解决这个问题(这些大数学家互相都认识的啊)。
Gamma函数是对阶乘在实数领域的扩展,也就是说,
Γ(x+1)=xΓ(x)
,下面用分部积分的方法进行推导,如不关心,可以略过。
据PRML第71页(2.14)式,Gamma函数在Beta分布和Dirichlet分布中起到了归一化的作用。
2. Beta分布
Beta分布描述的是定义在区间[0,1]上随机变量的概率分布,由两个参数
α>0
和
β>0
决定,通常记为
μ∼Beta(μ|α,β)
,其概率密度函数如下
P(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα−1(1−μ)β−1=1B(α,β)μα−1(1−μ)β−1
其中,
Γ(⋅)
就是Gamma函数,
B(α,β)
为Beta函数,并且
B(α,β)=Γ(α)Γ(β)Γ(α+β)
Beta分布的概率密度函数曲线如下图:(摘自wikipedia Beta distribution)

由于Beta分布定义在区间[0,1]上,所以适合作为概率的分布。第一段提到Beta分布可作为二项分布的先验概率,那就需要从二项分布的定义来理解Beta分布的形式。已知二项分布的形式为:
p(x=k|n,μ)=Cknμk(1−μ)n−k
对 μ 进行后验概率估计时,其似然项是 μ 和 (1−μ) 的指数形式,如果先验概率也选择为 μ 和 (1−μ) 的指数形式,那么后验概率就仍然保持这种指数形式,这种性质叫做共轭分布,我们会在后面的文章中对共轭分布进行介绍。
因此,Beta分布就是 μ 和 (1−μ) 的指数形式,其中Beta函数为归一化系数。Beta分布的均值和方差分别为
E[μ]=αα+β
var(μ)=αβ(α+β)2(α+β+1)
3. Dirichlet分布
Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布,假设有
d
个变量
p(μ|α)=Dir(μ|α)=Γ(α^)Γ(α1)⋯Γ(αd)∏di=1μαi−1i
Dirichlet分布的每一个随机变量具有统计量如下:
E[μi]=αiα^
var(μi)=αi(α^−αi)α^2(α^+1)
cov(μi,μj)=αiαjα^2(α^+1)
由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布,所以通常将其用作多项分布参数
μi
的概率分布。