基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。
pLSA应用与信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。pLSA可以看做概率化的矩阵分解。
D代表文档,Z代表主题(隐含类别),W代表单词;
P(di)表示文档di的出现概率,
表示文档di中主题zk出现的概率,
表示给定主题zk的前提下单词wj出现的概率。
每个文档在所有主题上服从多项分布;每个主题在所有词项上服从多项分布。
整个文档的生成过程是这样的:
观察数据为对,主题zk是隐含变量。
的联合分布为
分别对应了两组多项分布,而计算每个文档的主题分布,就是该模型的任务目标。
以下为极大似然估计:wj在di中出现的次数表示为n(di,wj)
目标函数分析
观察数据为对,主题Zk是隐含变量。
目标函数
未知变量/自变量
使用逐次逼近的办法
假定已知,求隐含变量zk的后验概率;
在(di,wj,zk)已知的前提下,求关于参数的似然函数期望极大值,得到最优解
。带入上一步,从而循环迭代。
求隐含变量主题Zk的后验概率
(1)假定已知,求隐含变量Zk的后验概率
(2)在(di,wj,zk)已知的前提下,求关于参数的似然函数期望极大值,得到最优解
。带入上一步,从而循环迭代。
(3)EM算法整体框架
(4)关于参数的似然函数期望
完成目标函数的建立
关于参数的函数E,并且,带有概率加和为1的约束条件:
这是只有等式约束的求极值问题,使用Lagrange乘子法解决。