第三周笔记
概率主题模型:混合一元语言模型
- 用两个词分布来表示,以此去除背景词(常见但意义不大的词)
- θd表示主题词分布
- θB表示背景词分布
- 文本中某个词的概率计算
混合两个一元语言模型(解析)
- 利用最大似然求解混合两个一元语言模型时,θd和θB会出现“合作”和“竞争”
- 在θB(背景词)分布中,概率大的词,相对地在θd(主题词)中概率会变小
- 某个词出现的次数越多,那么它在θd中的概率越高
这是一篇关于Coursera课程第三周的笔记,主要探讨概率主题模型,包括混合一元语言模型、最大期望算法(EM)、概率隐语义分析(PLSA)和潜在利克雷分布(LDA)。EM算法用于求解模型参数,LDA解决了PLSA的某些缺点,提供了一种生成模型。
963
1393

被折叠的 条评论
为什么被折叠?