为了解决“一词多义”和“多词一意”的问题,引入“主题”
LDA本质是一个三层贝叶斯网络
1、共轭分布
1、Beta分布是二项分布的共轭先验分布
2、Dirichlet分布是多项分布的共轭先验分布
Dirichlet分布的参数[α1,α2,....,αn],一般α都取一样的值。
α=1 均匀分布
α>1 主题分布相等的概率增大
α<1 某一主题突出的概率增大
2、LDA模型
LDA模型框图如下图所示

流程如下:
1、取α,用Dir(α)采样得到主题分布vm
2、对vm采样得到某一主题
3、取β,用Dir(β)对每个主题分别采样得到词分布φk
4、取得到的主题的对应的词分布,
5、在词分布中采一个词
3、LDA问题
LDA问题的已知是:已知词语w(可观测),已知先验超参数
LDA问题的所求是:主题z,主题分布θ,词分布φ
4、Gibbs采样
Gibbs采样是一个为词语标记主题的算法。其流程如下:
1、随机为文本中每个词分配主题
2、统计:a.每个主题z下出现词t的数量. b.每个文档m下出现主题z的数量
3、计算P(zi|zi−1,,w),返回步骤2,迭代。
本文介绍了LDA(Latent Dirichlet Allocation)主题模型的基本原理,包括如何利用Dirichlet分布进行主题分布和词分布的采样,以及通过Gibbs采样算法实现对文档中词的主题标注。
942

被折叠的 条评论
为什么被折叠?



