LDA(Lanton Dirichlet Allocation)浅显理解0.1

最新推荐文章于 2021-11-14 15:58:28 发布

原创最新推荐文章于 2021-11-14 15:58:28 发布 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #LDA

统计学专栏收录该内容

4 篇文章

订阅专栏

本文介绍了LDA（Latan Dirichlet Allocation）主题模型的基本思想，通过逐步解析Unigram Model、Mixture of Unigrams、pLSI到LDA的过程，阐述了LDA如何动态地处理主题和词汇的概率分布。同时，文章对比了pLSA与LDA的差异，并提及了相关知识点如gamma函数、Dirichlet分布和贝叶斯框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这一段时间在看LDA主题模型，这里说一下我对LDA的理解，抛开复杂的数学、概率论、机器机器学习算法，只说思路，其他内容以后再更加详细的写。
假设有一个机器人，他想写一篇文章,每篇文章包含N个词，那么他怎么写呢？？？
这里写图片描述

1、Unigram model

科学家A一开始这么设计，先给机器人读大量的文章，这样这个机器人的大脑中会有S个词，这些词组成了词向量 $W=[w_1, w_2, w_3 ...... w_S]$ ，每一个词都有相对应的概率 $P=[p(w_1), p(w_2), p(w_3) ...... p(w_S)$ 。
算法如下：

for i = 1 to N:
　　choose a word $w_i～ p(W)$

数学表示即：

p(w)=∏p(wn) $p(w) = ∏ p(w n )$
这里写图片描述

2、Mixture of unigrams

科学家B觉得不应该这样，他认为机器人读的这些文章分成不同的主题 $Z=[z_1, z_2 ...... z_t]$ ，每个主题的概率为 $P(Z)=[p(z_1), p(z_2), ...... p(z_t))]$ ,第i主题下又有S个高频词向量 $W=[w_1, w_2, w_3 ...... w_S]$ ，每一个词都有相对应的概率 $P=[p(w_1|z_i), p(w_2|z_i), p(w_3|z_i) ...... p(w_S|z_i)$ 。
算法描述如下：

choose a topic $z_i～p(Z);

for i = 1 to N
　　choose a word $w_i～ p(W|z_i)$

数学表示为：

$p(w) = ∑ p(z) ∏ p(w n | z)
这里写图片描述

也就是说按照学习到的概率选择一个Topic,按照这个Topic下词的概率选择N个词。

3、Probabilistic lantent semantic indexinal(pLSI)

科学家C（Hoffman）认为应该一篇文档可以由多个主题（topic $Z=[z_1, z_2 ...... z_t]$ ）混合而成，每个主题的概率为 $P(Z)=[p(z_1), p(z_2), ...... p(z_t))]$ ，而每个Topic都是词汇上的概率分布 $P=[p(w_1|z_i), p(w_2|z_i), p(w_3|z_i) ...... p(w_S|z_i)]$ ，文章中的每一个词都有固定的topic。
算法描述：

Choose parameter θ ～ p(θ) #θ为选择出来的主题向量
for i = 1 to N
　　choose a topic $z_j ～ p(z|θ)$
　　choose a word $w_k ～ p(w|z_j)$

数学表示即：

4、Lanton Dirichlet Allocation(LDA)

科学家D（David M. Blei）认为这个主题的概率分布、词汇的概率分布并不是固定的（与pLSA相比），应该是符合某一个分布，选取主题或词汇的时候，这个概率是动态变化的。

initialize $φ_{ni}^0$ := 1/k for all i and n
initialize $γ_i := α_i + N/k$ for all i and n
repeat
　for n = 1 to N
　　for i = 1 to k
　　　 $φ^{t+1}_{ni} = β_{iw_n}exp(Ψ(γ_i^t ))$
　　normalize $φ_n^{t+1}$ to sum to 1.
　 $γ_{t+1} = α + ∑^N_{n=1} φ_n^{t+1}$
until convergence