5.40算法-lda算法

LDA(Latent Dirichlet Allocation)是一种文本数值化方法,通过 Gamma 函数和 Dirichlet 分布进行文本建模。本文详细介绍了LDA的原理,包括文本建模过程、吉普斯抽样概率公式推导以及如何使用LDA进行主题分析,适合机器学习和自然语言处理领域的读者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

2018年01月14日 12:17:59 CWS_chen 阅读数 14052更多

所属专栏: 机器学习算法

随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。 LDA有着很完美的理论支撑,而且有着维度小等一系列优点。本文对LDA算法进行介绍,欢迎批评指正。

 

本文目录:

1、Gamma函数

2、Dirichlet分布

3、LDA文本建模

4、吉普斯抽样概率公式推导

5、使用LDA

 

 

1、Gamma函数

T(x)= ∫ tx-1 e-tdt    T(x+1) = xT(x)

若x为整数,则有 T(n) = (n-1)!

 

2、Dirichlet分布

这里抛出两个问题:

问题1: (1) X1, X2......Xn 服从Uniform(0,1)

            (2) 排序后的顺序统计量为X(1), X(2), X(3)......X(n)

(3) 问X(k1)和X(k1+k2)的联合分布式什么

把整个概率区间分成[0,X1) ,  [X1, X1+Δ),   [X1+Δ, X1+X2),    [X1+X2, X1+X2+Δ),     [X1+X2+Δ,1]

X(k1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值