
主题模型
莫一丞元
根特大学PhD在读
展开
-
pLSA理解
由于基于SVD的LSA进行奇异值分解非常耗时,并且缺乏数理统计基础。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。pLSA在原来基础上增添了统计概率,在参数学习方面采用EM算法。接下来先介绍pLSA的整体思想,然后介绍EM算法求参过程。整体思想:下面给出用EM算法估计PLSA参数的详细推导过程:...原创 2020-09-11 22:07:27 · 336 阅读 · 0 评论 -
LSI理解
文章介绍流程:基本思想、结构图、例子讲解、优缺点、算法流程、具体分解矩阵含义分析。基本思想LSA(Latent Semantic Analysis,潜在语义分析)和LSI(Latent Semantic Index, 潜在语义索引)是1988年,美国贝尔通讯实验室的S.T.Dumais等人为解决传统向量空间模型对文本的语义信息利用能力匮乏而提出。原理:LSA潜在语义分析的目的,就是要找出词(terms)在文档和查询中真正的含义,也就是潜在语义,从而解决上节所描述的问题。具体说来就是对一个大型的文档集合原创 2020-09-11 22:00:52 · 2061 阅读 · 0 评论 -
主题模型概述
传统的方法一般只停留在文档的表面统计信息(例如tf-idf、textrank等),对于文本中丰富的信息无法充分地进行利用,尤其是潜在的语义信息,例如两篇文档出现的词很少甚至没有,但是两个文档很相似,比如,文档1:苹果手机会不会降价?文档2:乔布斯的家乡在哪?主题模型是用来在大量文档中发现潜在主题的一种统计模型。通俗地讲,主题模型认为在词与文档之间应该当还存在一个维度将它们串联起来,主题模型将这个维度称为主题。如果一篇文章有一个中心思想,那么一些特定词语会出现的比较频繁;真实情况下,一个文档中通常包含多个原创 2020-09-11 21:52:32 · 1552 阅读 · 0 评论