LDA学习总结

最新推荐文章于 2021-04-22 13:09:18 发布

原创最新推荐文章于 2021-04-22 13:09:18 发布 · 718 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#主体模型 #LDA

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了文本挖掘领域的几种重要模型，包括向量空间模型、潜在语义分析(LSA)、概率潜在语义模型(PLSA)及主题模型(LDA)，并详细探讨了LDA模型及其衍生模型Author-topic和动态主题模型(DTM)的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前做的主要工作是学习一些关于主体模型及其衍生模型的学习，并且其具体的应用。

向量空间模型是文本的代数模型，用向量来表示文档。可用于信息过滤、信息检索、文档比较等。

LSA（潜在语义分析）旨在寻找出词与词之间的某种语义关联，达到简化文本，得出词与概念间的关系。可应用于信息检索等。

PLSA 概率潜在语义模型使用统计的方法为文档建立起“文档--潜在语义--词”之间的概率分布关系。

主题模型是文本挖掘中的一种概率模型，是在传统的向量空间模型和语言模型上发展起来。

之前学习的LDA主题模型是一种机器学习技术，可以用来识别大规模文本集中隐藏的信息。将每一篇文档视为一个词频向量，每一篇文档是一些主题的概率分布，而每一个主题又是在一些词上的概率分布。LDA模型训练出来的就是“文档--主题”和“主题--词”的分布。通过训练，就可以找到文档所涵盖的主题。

后来又了解了一些LDA的衍生模型及其应用。如Author-topic 和 DTM（动态主题模型）。在Author-topic模型中，在LDA的基础上加入了作者这个角色，得出的是“作者-主题”和“主题--词”的分布。该模型可用来判断作者与文章之间的关系。

DTM动态主题模型是文档主题的演化。如新闻事件，研究热点等。在动态主题模型中，文档集按时间顺序被分割成个切片，每个切片内的子文档集都用主题模型建模。其中当前时间片内的“主题-词”与“文档--主题”分布受上一个时间片内的影响。从而分析得出主题的动态变化。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。