文本处理:pLSA 与LDA主题模型

本文深入探讨了LDA(隐含狄利克雷分布)主题模型,一种用于文本分类和主题发现的非监督机器学习技术。对比了pLSA与LDA的不同,详细解释了LDA的生成过程,包括如何从主题分布中抽取主题,再从主题生成单词,适用于大规模文档集的主题分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

在机器学习领域,关于LDA有两种含义,(1) 线性判别分析(Linear Discriminant Analysis),是一种经典的降维学习方法;(2) 隐含狄利克雷分布(Latent Dirichlet Allocation),是一种概率主题模型,主要用来文本分类,在NLP领域有重要应用。在本文要介绍的是 Latent Dirichlet Allocation 主题模型。

1. pLSA

pLSA是一种词袋方法。pLSA的生成文档过程可以理解为先选定文档生成主题,再确定主题生成词语。
在这里插入图片描述

2. LDA

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。

2.1 LDA生成过程

对于语料库中的每篇文档,LDA定义了如下生成过程(generativeprocess):
(1)对每一篇文档,从主题分布中抽取一个主题;
(2)从上述被抽到的主题所对应的单词分布中抽取一个单词;
(3)重复上述过程直至遍历文档中的每一个单词。

这篇blog 讲的很细致,但小白的我还没看懂,,
https://blog.youkuaiyun.com/Kaiyuan_sjtu/article/details/83572927

参考链接:

https://blog.youkuaiyun.com/Kaiyuan_sjtu/article/details/83572927
https://blog.youkuaiyun.com/u013710265/article/details/73480332

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值