主题模型分析模型——pLSA

本文介绍了基于概率统计的pLSA模型,详细解释了如何利用EM算法进行参数学习,适用于信息检索、过滤及自然语言处理等领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。

pLSA应用与信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。pLSA可以看做概率化的矩阵分解。

 

D代表文档,Z代表主题(隐含类别),W代表单词;

P(di)表示文档di的出现概率,

表示文档di中主题zk出现的概率,

表示给定主题zk的前提下单词wj出现的概率。

每个文档在所有主题上服从多项分布;每个主题在所有词项上服从多项分布。

整个文档的生成过程是这样的:

观察数据为对,主题zk是隐含变量。

的联合分布为

分别对应了两组多项分布,而计算每个文档的主题分布,就是该模型的任务目标。

 

以下为极大似然估计:wj在di中出现的次数表示为n(di,wj)

目标函数分析

观察数据为对,主题Zk是隐含变量。

目标函数

未知变量/自变量

使用逐次逼近的办法

假定已知,求隐含变量zk的后验概率;

在(di,wj,zk)已知的前提下,求关于参数的似然函数期望极大值,得到最优解。带入上一步,从而循环迭代。

 

求隐含变量主题Zk的后验概率

(1)假定已知,求隐含变量Zk的后验概率

(2)在(di,wj,zk)已知的前提下,求关于参数的似然函数期望极大值,得到最优解。带入上一步,从而循环迭代。

(3)EM算法整体框架

(4)关于参数的似然函数期望

完成目标函数的建立

关于参数的函数E,并且,带有概率加和为1的约束条件:

这是只有等式约束的求极值问题,使用Lagrange乘子法解决。

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值