23、隐狄利克雷分配与神经网络学习

隐狄利克雷分配与神经网络学习

1. 隐狄利克雷分配(LDA)

1.1 从朴素贝叶斯到LDA

在处理包含隐藏变量的训练数据时,我们可以从朴素贝叶斯模型开始。朴素贝叶斯模型通过最大似然估计(MLE),利用相对频率进行训练。引入潜在变量后,得到了概率潜在语义分析(PLSA)模型,该模型使用期望最大化(EM)算法进行训练。而隐狄利克雷分配(LDA)则是在PLSA模型的基础上,采用贝叶斯估计引入稀疏先验。

LDA假设每个文档包含多个潜在主题的混合,且每个单词由某个主题生成。在PLSA中,给定文档 $d$ 中的一个单词,其概率计算涉及文档中的单词总数、主题总数、单词的潜在主题、“主题 - 单词”分布以及“文档 - 主题”分布。

1.2 LDA的贝叶斯网络结构

LDA的贝叶斯网络结构中,有“主题 - 单词”分布集合和“文档 - 主题”分布集合。对于“主题 - 单词”分布,参数化一个狄利克雷先验,每个超参数可视为在看到实际观察之前,单词 $i$ 在某个主题中出现的伪先验计数。对于“文档 - 主题”分布同样如此,每个超参数可看作在看到文档 $d$ 中的实际单词之前,主题 $k$ 在文档 $d$ 中出现的伪先验计数。

经验上,将先验设置为对称先验可以编码稀疏性,即一个文档通常只包含几个主题,每个主题只由几个关键词组成。

1.3 LDA的生成过程

LDA的生成过程如下:
1. 对于每个主题 $k$,根据狄利克雷先验生成“主题 - 单词”分布,共生成 $K$ 个“主题 - 单词”分布。
2. 对于每个文档 $d$:
- 根据狄利克雷先验生成“文档 - 主题”分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值