主题模型概述

传统的方法一般只停留在文档的表面统计信息(例如tf-idf、textrank等),对于文本中丰富的信息无法充分地进行利用,尤其是潜在的语义信息,例如两篇文档出现的词很少甚至没有,但是两个文档很相似,比如,文档1:苹果手机会不会降价?文档2:乔布斯的家乡在哪?

主题模型是用来在大量文档中发现潜在主题的一种统计模型。通俗地讲,主题模型认为在词与文档之间应该当还存在一个维度将它们串联起来,主题模型将这个维度称为主题。

如果一篇文章有一个中心思想,那么一些特定词语会出现的比较频繁;真实情况下,一个文档中通常包含多个主题,而且每个主题所占的比例各不相同,主题会有对应的词分布,则与各个主题相关的关键字出现的次数与主题之间的比例有关,从而得到每个文档的词分布。主题模型能够自动分析文档(document),不计顺序地统计文档内的单词(word),根据统计的信息判断该文档包含的主题(topic)以及各个主题所占比例。

在这里插入图片描述

主题模型是一种生成式有向图模型,主题模型中文档是由主题组成的,而主题是单词的一个概率分布;即每个单词都是通过“文档以一定的概率选择某个主题,再从这个主题中以一定的概率选择某个单词”这样一个过程得到的。依据这个原理,就可以得到主题模型的一个核心公式:

在这里插入图片描述
在这里插入图片描述

发展历史:Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。

隐含狄利克雷分配LDA可能是最常见的主题模型,是一般化的PLSI,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。其它主体模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值