LDA学习总结

本文介绍了文本挖掘领域的几种重要模型,包括向量空间模型、潜在语义分析(LSA)、概率潜在语义模型(PLSA)及主题模型(LDA),并详细探讨了LDA模型及其衍生模型Author-topic和动态主题模型(DTM)的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前做的主要工作是学习一些关于主体模型及其衍生模型的学习,并且其具体的应用。

 

向量空间模型是文本的代数模型,用向量来表示文档。可用于信息过滤、信息检索、文档比较等。

 

LSA(潜在语义分析)旨在寻找出词与词之间的某种语义关联,达到简化文本,得出词与概念间的关系。可应用于信息检索等。

 

PLSA 概率潜在语义模型使用统计的方法为文档建立起“文档--潜在语义--词”之间的概率分布关系。

 

主题模型是文本挖掘中的一种概率模型,是在传统的向量空间模型和语言模型上发展起来。

 

之前学习的LDA主题模型是一种机器学习技术,可以用来识别大规模文本集中隐藏的信息。将每一篇文档视为一个词频向量,每一篇文档是一些主题的概率分布,而每一个主题又是在一些词上的概率分布。LDA模型训练出来的就是“文档--主题”和“主题--词”的分布。通过训练,就可以找到文档所涵盖的主题。

 

后来又了解了一些LDA的衍生模型及其应用。如Author-topic 和 DTM(动态主题模型)。在Author-topic模型中,在LDA的基础上加入了作者这个角色,得出的是“作者-主题”和“主题--词”的分布。该模型可用来判断作者与文章之间的关系。

DTM动态主题模型是文档主题的演化。如新闻事件,研究热点等。在动态主题模型中,文档集按时间顺序被分割成个切片,每个切片内的子文档集都用主题模型建模。其中当前时间片内的“主题-词”与“文档--主题”分布受上一个时间片内的影响。从而分析得出主题的动态变化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值