LSA
潜语义模型,通过矩阵分解SVD的方式将词和文档映射到潜在语义空间
应用:计算相似度,可以进行 1)词汇/文档分类 2)检索
缺点:1)尽管LSA的U和V矩阵每一列可以看作一个话题,但是无法解释。 2)svg计算量大
pLSA
pLSA通过一个生成模型给LSA赋予概率上的解释。每篇文档看成是话题上的概率分布,每一个话题代表不同单词的概率分布。每写一个词,先以一定的概率选取主题,再以一定的概率选取词,每篇文档通过这样一个两层的概率分布生成。
缺点:1)参数随着文档和单词个数递增,容易引发过拟合 2)pLSA无法给训练集之外的文档分配文档-主题权重
求解方法:EM
1.E步 求解P(z|w,d) 的后验概率
2.M步 求解关于参数p(z|d), p(w|z)的联合概率对数似然函数期望的极大值,更新E
LDA
LDA给文档-主题的概率分布和主题-词的概率分布引入了先验信息。
求解方法:MAP/Gibbs Sampling
- 1. 对语料库中的每篇文档中的每个词w,随机的赋予一个topic编号z
- 2. 重新扫描语料库,对每个词w,使用Gibbs Sampling公式对其采样,求出它的topic,在语料中更新
- 3. 重复步骤2,直到Gibbs Sampling收敛
- 4. 统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型;
Gibbs Sampling 收敛之后,统计每篇文档中的 topic 的频率分布,我们就可以计算每一个 p(topic|doc) 概率,根据topic-word频率矩阵,我们可以计算每一个p(word|topic)概率。
主题模型的缺点
词袋模型,不考虑词在文章中的位置,丢失了位置信息
参考:
[1]一文详解LDAhttps://zhuanlan.zhihu.com/p/31470216
[2]LSA,pLSA原理及其代码实现 https://www.cnblogs.com/bentuwuying/p/6219970.html
[3]浅谈话题模型:LSA、PLSA、LDAhttps://www.jiqizhixin.com/articles/2019-06-12-8
[4]Blei, David M,Ng, Andrew Y,Jordan, Michael Latent Dirichlet Allocation