主题模型分析模型——pLSA

最新推荐文章于 2024-03-22 20:30:36 发布

努力是一种幸运

最新推荐文章于 2024-03-22 20:30:36 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习算法文章标签：自然语言处理主题模型数据挖掘数据分析 pLSA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/American199062/article/details/51502940

机器学习算法专栏收录该内容

14 篇文章

订阅专栏

本文介绍了基于概率统计的pLSA模型，详细解释了如何利用EM算法进行参数学习，适用于信息检索、过滤及自然语言处理等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于概率统计的pLSA模型（probabilistic Latent Semantic Analysis，概率隐语义分析），增加了主题模型，形成简单的贝叶斯网络，可以使用EM算法学习模型参数。

pLSA应用与信息检索、过滤、自然语言处理等领域，pLSA考虑到词分布和主题分布，使用EM算法来学习参数。pLSA可以看做概率化的矩阵分解。

D代表文档，Z代表主题（隐含类别），W代表单词；

P(di)表示文档di的出现概率，

表示文档di中主题zk出现的概率，

表示给定主题zk的前提下单词wj出现的概率。

每个文档在所有主题上服从多项分布；每个主题在所有词项上服从多项分布。

整个文档的生成过程是这样的：

观察数据为对，主题zk是隐含变量。

的联合分布为

分别对应了两组多项分布，而计算每个文档的主题分布，就是该模型的任务目标。

以下为极大似然估计：wj在di中出现的次数表示为n(di,wj)

目标函数分析

观察数据为对，主题Zk是隐含变量。

目标函数

未知变量/自变量

使用逐次逼近的办法

假定已知，求隐含变量zk的后验概率；

在（di,wj,zk）已知的前提下，求关于参数的似然函数期望极大值，得到最优解。带入上一步，从而循环迭代。

求隐含变量主题Zk的后验概率

（1）假定已知，求隐含变量Zk的后验概率

（2）在（di,wj,zk）已知的前提下，求关于参数的似然函数期望极大值，得到最优解。带入上一步，从而循环迭代。

（3）EM算法整体框架

（4）关于参数的似然函数期望

完成目标函数的建立

关于参数的函数E，并且，带有概率加和为1的约束条件：

这是只有等式约束的求极值问题，使用Lagrange乘子法解决。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。