LDA-math-LDA 文本建模

最新推荐文章于 2025-08-14 12:19:48 发布

weixin_33739523

最新推荐文章于 2025-08-14 12:19:48 发布

阅读量142

点赞数

文章标签：人工智能

本文详细介绍了LDA文本建模的原理，包括贝叶斯游戏规则、物理过程分解以及参数更新方法。重点阐述了如何通过Gibbs Sampling算法对联合分布进行采样，以实现对文本主题的有效建模。通过解析Dirichlet-Multinomial共轭结构，深入理解LDA模型的工作机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://cos.name/2013/03/lda-math-lda-text-modeling/

5. LDA 文本建模

5.1 游戏规则

对于上述的 PLSA 模型，贝叶斯学派显然是有意见的，doc-topic 骰子

LDA模型

在 LDA 模型中, 上帝是按照如下的规则玩文档生成的游戏的

假设语料库中有

w -\to z \to = (w \to 1, \dots, w \to M) = (z \to 1, \dots,

其中，

语料生成过程中的 word 和 topic

5.2 物理过程分解

使用概率图模型表示， LDA 模型的游戏过程如图所示。

LDA概率图模型表示

这个概率图可以分解为两个主要的物理过程：

理解 LDA最重要的就是理解这两个物理过程。 LDA 模型在基于

由第一个物理过程，我们知道

前文介绍 Bayesian Unigram Model 的小节中我们对 Dirichlet-Multinomial 共轭结构做了一些计算。借助于该小节中的结论，我们可以得到

p (z \to m | α \to) = Δ ( n \to m + α \to ) Δ ( α \to )

D i r (θ \to m | n \to m + α \to) .

由于语料中

p (z \to | α \to) = \prod m = 1 M p (z \to m | α \to)

目前为止，我们由

以上游戏是先生成了语料中所有词的 topic, 然后对每个词在给定 topic 的条件下生成 word。在语料中所有词的 topic 已经生成的条件下，任何两个 word 的生成动作都是可交换的。于是我们把语料中的词进行交换，把具有相同 topic 的词放在一起

w -\to' z \to' = (w \to (1), \dots, w \to (K))

对应于概率图中的第二个物理过程

同样的，我们可以得到

p (w \to (k) | β \to) = Δ ( n \to k + β \to ) Δ ( β \to )

D i r (φ \to k | n \to k + β \to) .

p (w -\to | z \to, β \to) = p (w -\to' |

结合 (*) 和 (**) 于是我们得到

p (w -\to, z \to | α \to, β \to) = p (w -\to | z

此处的符号表示稍微不够严谨, 向量

5.3 Gibbs Sampling

有了联合分布

语料库

p (z i = k | z \to \neg i, w -\to) \propto p (z i = k, w i = t |

其它的

由于在语料去掉第

p (θ \to m | z \to \neg i, w -\to \neg i) p (φ \to k |

使用上面两个式子，把以上想法综合一下，我们就得到了如下的 Gibbs Sampling 公式的推导

=
=
=
=
=
=
=

p (z i = k | z \to \neg i, w -\to)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。