隐狄利克雷分配与神经网络学习
1. 隐狄利克雷分配(LDA)
1.1 从朴素贝叶斯到LDA
在处理包含隐藏变量的训练数据时,我们可以从朴素贝叶斯模型开始。朴素贝叶斯模型通过最大似然估计(MLE),利用相对频率进行训练。引入潜在变量后,得到了概率潜在语义分析(PLSA)模型,该模型使用期望最大化(EM)算法进行训练。而隐狄利克雷分配(LDA)则是在PLSA模型的基础上,采用贝叶斯估计引入稀疏先验。
LDA假设每个文档包含多个潜在主题的混合,且每个单词由某个主题生成。在PLSA中,给定文档 $d$ 中的一个单词,其概率计算涉及文档中的单词总数、主题总数、单词的潜在主题、“主题 - 单词”分布以及“文档 - 主题”分布。
1.2 LDA的贝叶斯网络结构
LDA的贝叶斯网络结构中,有“主题 - 单词”分布集合和“文档 - 主题”分布集合。对于“主题 - 单词”分布,参数化一个狄利克雷先验,每个超参数可视为在看到实际观察之前,单词 $i$ 在某个主题中出现的伪先验计数。对于“文档 - 主题”分布同样如此,每个超参数可看作在看到文档 $d$ 中的实际单词之前,主题 $k$ 在文档 $d$ 中出现的伪先验计数。
经验上,将先验设置为对称先验可以编码稀疏性,即一个文档通常只包含几个主题,每个主题只由几个关键词组成。
1.3 LDA的生成过程
LDA的生成过程如下:
1. 对于每个主题 $k$,根据狄利克雷先验生成“主题 - 单词”分布,共生成 $K$ 个“主题 - 单词”分布。
2. 对于每个文档 $d$:
- 根据狄利克雷先验生成“文档 - 主题”分布。
超级会员免费看
订阅专栏 解锁全文
106

被折叠的 条评论
为什么被折叠?



