0、前言
LDA是两个常用模型的简称:Linear Discriminant Analiysis 和Latent Dirichlet Allocation.
LDA(Latent Dirichlet Allocation)在文本建模中类似于SVD,PLSA等模型,可以用于浅层语义分析,在文本语义分析中是一个很有用的模型.
这个模型涉及到Gamma函数,Dirichlet分布(狄利克雷分布),Dirichlet-Multinomial共轭,Gibbs Sampling,Variational Inference,贝叶斯文本建模,PLSA建模,以及LDA文本建模.
1、Gamma函数
形式:
gamma函数性质:
并且Γ函数的计算有以下规律:
从二项分布到Gamma分布:
2、Beta分布
引入一个典例:
不是一般性:
其中x属于0-1之间的数。此时把题目所需求的k值带入公式即可求出来概率的函数。
3、Beta-Binomial 共轭
再引入一个典例: