Spark MLlib — EMLDA

最新推荐文章于 2021-07-29 12:46:05 发布

原创

最新推荐文章于 2021-07-29 12:46:05 发布 · 950 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #文档 #算法

本文详细介绍了LDA（潜在狄利克雷分配）主题模型的理论基础，包括Dirichlet先验分布、EM算法和Gibbs Sampling。通过Spark MLlib中的GraphX实现LDA，讨论了图的构造、分布式存储和聚合操作，为读者提供了深入理解LDA及其在Spark中应用的视角。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LDA(Latent Dirichlet allocation)是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出，也即根据给定的一篇文档，推测其主题分布。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。本文主要介绍LDA涉及的数学知识以及Spark MLlib中基于Graphx的实现方式。

1.理论基础

这部分内容主要参考《LDA数学八卦》和《通俗理解LDA主题模型》，涉及到数学内容真是挺多的，网上大多数博文的阐述过程大多一上来就摆出一大堆理论基础，自己学习的过程中也会觉得一开始就很吃力，而且不能把众多理论和最终的模型联系起来，所以一直想找到一种易于理解的方式来阐述该模型。

1.1 LDA引入— Dirichlet先验分布

在NLP领域，文本的表现形式通常是有序的词序列,即 $d=(\omega_1,\omega_2,...,\omega_n)$ 。文本建模的实质就是为文本对应的词序列建模。《LDA数学八卦》中以上帝掷骰子的游戏形象的阐述了各种模型生成文本的过程，这里简单概括下各种模型的本质，并假设m篇文本的总词数为N，词典中单词总数为V：

1.1.1 主题无关模型

Unigram Model：投掷一个V面的骰子，重复N次生成词序列，则这N个随机变量（即生成的N个单词）是独立同分布的，该分布的概率函数即为骰子每一面出现的概率为 $\vec p=\{p_1,p_2,...p_V\}$ 。则词典中每个单词出现次数（记为 $\vec n={n_1,n_2,...,n_V}$ ）的联合分布满足Multinomial分布(多项分布)，其概率密度函数为： $p (n ⃗) = M u l t (n ⃗ | p ⃗, N) = (N n ⃗) \prod k = 1 V p n k k = N ! n 1 ! n 2 ! . . . n V ! p n 1 1 p n 2 2 . . . p n V V (1.1)$ $p(\vec n)=Mult(\vec n|\vec p,N)=\begin{pmatrix}N \\ \vec n\end{pmatrix}\prod_{k=1}^V p_k^{n_k}=\frac{N!}{n_1!n_2!...n_V!}p_1^{n_1}p_2^{n_2}...p_V^{n_V} \tag{1.1}$
贝叶斯Unigram Model：在Unigram Model的基础上为 $\vec p$ 加入了先验分布，即需要先以一定的概率选出骰子。这里的先验分布选择了Multinomial式分布的共轭先验分布Dirichlet分布，Dirichlet分布的一般表现形式如下： $D i r (p ⃗ | α ⃗) = Γ ( \sum K k = 1 α k ) \prod K k = 1 Γ ( α k ) \prod k = 1 K p n k k (1.2)$ $Dir(\vec p|\vec \alpha) = \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma( \alpha_k)}\prod_{k=1}^Kp_k^{n_k} \tag{1.2}$
其中 $\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}dt=(n-1)!$ 为gamma函数。
共轭先验分布的本质为：Dirichlet先验+Multinomial分布—>后验分布也为Dirichlet分布 即： $D i r (p ⃗ | α ⃗) + M u l t (m ⃗) = D i r (p ⃗ | α ⃗ + m ⃗) (1.3)$ $Dir(\vec p|\vec \alpha)+Mult(\vec m)=Dir(\vec p|\vec \alpha+\vec m) \tag{1.3}$
关于gamma函数的更多性质以及Dirichlet先验和Multinomial分布的共轭关系的证明待有空专门整理。