EM推导PLSA模型

最新推荐文章于 2021-10-23 22:04:20 发布

原创

最新推荐文章于 2021-10-23 22:04:20 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#PLSA算法 #EM算法 #主题模型

本文介绍了如何使用EM算法推导概率latent semantic analysis（PLSA）模型。首先概述了EM算法的基本思想，然后详细解释了PLSA模型，并展示了如何在E步骤中计算隐变量的后验概率，在M步骤中更新模型参数。最终通过拉格朗日乘子法解决了等式约束问题，得到了参数更新的公式。

EM推导PLSA模型

回归EM算法

这里写图片描述

以上是EM算法的框架，基本思想是：

E步骤：求当隐变量给定后当前估计的参数条件下的后验概率
M步骤：最大化complete data对数似然函数的期望，把E步当做是已知值，得到新的参数值
不断迭代以上步骤直到收敛。

plsa模型简介

PLSA应用于信息检索、过滤、自然语言处理等领域，考虑到词分布和主题分布，可以看做概率化的矩阵分解，采用EM算法来学习参数。

模型示意图如下：
这里写图片描述

其中包括的概率有：

以 $p(d_i)$ 的概率选中文档 $d_i$
以 $p(z_k | d_i)$ 的概率选中主题 $z_k$
以 $p(w_j|z_k)$ 的概率产生一个词 $w_j$

在plsa中, $p(d_i)$ 可以事先计算求出，而 $p(w_j|z_k), p(z_k| d_i)$ 就是我们需要计算的参数。

根据EM算法：
E步：求隐变量的后验概率

$p(z_k | d_i, w_j) = \frac{ p(w_j | z_k) p(z_k | d_i)}{ \sum_{l=1} ^Kp(w_j | z_l) p(z_k | d_i)}$

M步完整数据的似然函数的期望

$l = \sum_i \sum_j n(d_i, w_j) log p(d_i, w_j)$
$= \sum_i \sum_j n(d_i, w_j) log p(w_j | d_i) p(d_i)$
=∑i∑jn(di,wj)logp(wj|di)+∑i∑jn(di,wj)logp(d

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。