23、隐狄利克雷分配与神经网络学习

最新推荐文章于 2025-11-10 13:06:14 发布

落叶知秋263

最新推荐文章于 2025-11-10 13:06:14 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习视角下的NLP 文章标签： LDA 神经网络文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/151094791

机器学习视角下的NLP 专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

隐狄利克雷分配与神经网络学习

1. 隐狄利克雷分配（LDA）

1.1 从朴素贝叶斯到LDA

在处理包含隐藏变量的训练数据时，我们可以从朴素贝叶斯模型开始。朴素贝叶斯模型通过最大似然估计（MLE），利用相对频率进行训练。引入潜在变量后，得到了概率潜在语义分析（PLSA）模型，该模型使用期望最大化（EM）算法进行训练。而隐狄利克雷分配（LDA）则是在PLSA模型的基础上，采用贝叶斯估计引入稀疏先验。

LDA假设每个文档包含多个潜在主题的混合，且每个单词由某个主题生成。在PLSA中，给定文档 $d$ 中的一个单词，其概率计算涉及文档中的单词总数、主题总数、单词的潜在主题、“主题 - 单词”分布以及“文档 - 主题”分布。

1.2 LDA的贝叶斯网络结构

LDA的贝叶斯网络结构中，有“主题 - 单词”分布集合和“文档 - 主题”分布集合。对于“主题 - 单词”分布，参数化一个狄利克雷先验，每个超参数可视为在看到实际观察之前，单词 $i$ 在某个主题中出现的伪先验计数。对于“文档 - 主题”分布同样如此，每个超参数可看作在看到文档 $d$ 中的实际单词之前，主题 $k$ 在文档 $d$ 中出现的伪先验计数。

经验上，将先验设置为对称先验可以编码稀疏性，即一个文档通常只包含几个主题，每个主题只由几个关键词组成。

1.3 LDA的生成过程

LDA的生成过程如下：
1. 对于每个主题 $k$，根据狄利克雷先验生成“主题 - 单词”分布，共生成 $K$ 个“主题 - 单词”分布。
2. 对于每个文档 $d$：
- 根据狄利克雷先验生成“文档 - 主题”分布。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。