LDA是什么

LDA(Latent Dirichlet Allocation)是一种无监督机器学习技术,用于文本分析,假设每篇文档由多个主题混合而成,每个主题又由多个词的概率表示。通过LDA,可以抽取文档的主题分布进行主题聚类或文本分类。LDA基于文档生成过程,涉及多项分布、beta分布、狄利克雷分布等概率模型,并使用Gibbs采样进行参数估计和推理。
  1. LDA是什么

    隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA),是由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出的一种主题模型,是一种无监督机器学习技术,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

    对于语料库中的每篇文档,LDA 定义了如下生成过程(generative process):

    1. 对每一篇文档,从主题分布中抽取一个主题;
    2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;
    3. 重复上述过程直至遍历文档中的每一个单词。

    LDA 认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征。

    LDA既给出了以上文档的具体生成过程,同时也给出了模型参数估计的方法。

    LDA背后的数学原理相当复杂,这里只做大概的介绍,详细推导可看文末参考资料。

  2. LDA

    LDA的相关内容可以做如下概括:

    • 一个函数:gamma函数

      gamma函数的表达式为:
      Γ ( x ) = ∫ 0 + ∞

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科研程序开发

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值