-
LDA是什么
隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。
对于语料库中的每篇文档,LDA 定义了如下生成过程(generative process):
- 对每一篇文档,从主题分布中抽取一个主题;
- 从上述被抽到的主题所对应的单词分布中抽取一个单词;
- 重复上述过程直至遍历文档中的每一个单词。
LDA 认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征。
LDA既给出了以上文档的具体生成过程,同时也给出了模型参数估计的方法。
LDA背后的数学原理相当复杂,这里只做大概的介绍,详细推导可看文末参考资料。
-
LDA
LDA的相关内容可以做如下概括:
-
一个函数:gamma函数
gamma函数的表达式为:
Γ ( x ) = ∫ 0 + ∞
-
LDA是什么
LDA(Latent Dirichlet Allocation)是一种无监督机器学习技术,用于文本分析,假设每篇文档由多个主题混合而成,每个主题又由多个词的概率表示。通过LDA,可以抽取文档的主题分布进行主题聚类或文本分类。LDA基于文档生成过程,涉及多项分布、beta分布、狄利克雷分布等概率模型,并使用Gibbs采样进行参数估计和推理。

订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



