狄利克雷分布(Dirichlet Distribution)是一个定义在多维概率简单x上的分布,广泛应用于贝叶斯统计和机器学习中,尤其是在主题模型和聚类分析中。它是Beta分布在多维空间的推广。
数学定义
狄利克雷分布是一个参数化的分布,其参数为一个维度为 K K K的向量 α = ( α 1 , α 2 , … , α K ) \alpha = (\alpha_1, \alpha_2, \ldots, \alpha_K) α=(α1,α2,…,αK),每个元素 α i \alpha_i αi称为浓度参数。狄利克雷分布的概率密度函数(PDF)定义为:
f ( x 1 , x 2 , … , x K ; α 1 , α 2 , … , α K ) = 1 B ( α ) ∏ i = 1 K x i α i − 1 f(x_1, x_2, \ldots, x_K; \alpha_1, \alpha_2, \ldots, \alpha_K) = \frac{1}{B(\alpha)} \prod_{i=1}^K x_i^{\alpha_i - 1} f(x1,x2,…,xK;α1,α2,…,αK)=B(α)1∏i=1Kxiαi−1
其中:
- x = ( x 1 , x 2 , … , x K ) x = (x_1, x_2, \ldots, x_K) x=(x1,x2,…,xK)满足 ∑ i = 1 K x i = 1 \sum_{i=1}^K x_i = 1 ∑i=1Kxi=1且 x i ≥ 0 x_i \geq 0 xi≥0。
- α i > 0 \alpha_i > 0 αi>0为浓度参数。
- B ( α ) B(\alpha) B(α)是Beta函数的多维推广,定义为:
B ( α ) = ∏ i = 1 K Γ ( α i ) Γ ( ∑ i = 1 K α i ) B(\alpha) = \frac{\prod_{i=1}^K \Gamma(\alpha_i)}{\Gamma\left( \sum_{i=1}^K \alpha_i \right)} B(α)=Γ(∑i=1Kαi)∏i=1KΓ(αi)
其中
Γ
\Gamma
Γ是Gamma函数。Gamma函数的基本定义式为:
Γ
(
z
)
=
∫
0
∞
t
z
−
1
e
−
t
d
t
\Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt
Γ(z)=∫0∞tz−1e−tdt
这是对复数
z
z
z且
ℜ
(
z
)
>
0
\Re(z) > 0
ℜ(z)>0的定义。
性质
- 共轭先验:狄利克雷分布在贝叶斯统计中作为多项式分布的共轭先验分布,这使得在进行贝叶斯更新时计算更加简便。
- 期望和方差:如果 X ∼ Dir ( α ) X \sim \text{Dir}(\alpha) X∼Dir(α),则其期望为:
E [ X i ] = α i ∑ j = 1 K α j \mathbb{E}[X_i] = \frac{\alpha_i}{\sum_{j=1}^K \alpha_j} E[Xi]=∑j=1Kαjαi
方差为:
Var [ X i ] = α i ( α 0 − α i ) α 0 2 ( α 0 + 1 ) \text{Var}[X_i] = \frac{\alpha_i (\alpha_0 - \alpha_i)}{\alpha_0^2 (\alpha_0 + 1)} Var[Xi]=α02(α0+1)αi(α0−αi)
其中 α 0 = ∑ j = 1 K α j \alpha_0 = \sum_{j=1}^K \alpha_j α0=∑j=1Kαj。
应用
- LDA(Latent Dirichlet Allocation):在主题模型中,狄利克雷分布用于生成文档主题分布和主题词分布。
- 聚类分析:狄利克雷过程(Dirichlet Process)是一种非参数贝叶斯方法,用于确定聚类的数量。
- 贝叶斯推断:在贝叶斯统计中,作为多项式分布的先验。
总之,狄利克雷分布是一个非常强大且广泛应用的工具,特别是在贝叶斯方法和概率模型中。