2018年01月14日 12:17:59 CWS_chen 阅读数 14052更多
所属专栏: 机器学习算法
随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。 LDA有着很完美的理论支撑,而且有着维度小等一系列优点。本文对LDA算法进行介绍,欢迎批评指正。
本文目录:
1、Gamma函数
2、Dirichlet分布
3、LDA文本建模
4、吉普斯抽样概率公式推导
5、使用LDA
1、Gamma函数
T(x)= ∫ tx-1 e-tdt T(x+1) = xT(x)
若x为整数,则有 T(n) = (n-1)!
2、Dirichlet分布
这里抛出两个问题:
问题1: (1) X1, X2......Xn 服从Uniform(0,1)
(2) 排序后的顺序统计量为X(1), X(2), X(3)......X(n)
(3) 问X(k1)和X(k1+k2)的联合分布式什么
把整个概率区间分成[0,X1) , [X1, X1+Δ), [X1+Δ, X1+X2), [X1+X2, X1+X2+Δ), [X1+X2+Δ,1]
X(k1)