LDA主题模型——gensim实战

本文介绍了主题模型,特别是LDA(Latent Dirichlet Allocation),对比了生成模型和判别模型的区别。通过 gensim 库展示了如何训练LDA模型,找出文本的主题分布和主题词,以及如何为新文本分配主题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天我们来谈谈主题模型(Latent Dirichlet Allocation),由于主题模型是生成模型,而我们常用的决策树,支持向量机,CNN等常用的机器学习模型的都是判别模型。所以笔者首先简单介绍一下判别模型和生成模型。下面笔者列出了生成模型和判别模型的核心区别:

  • 判别模型:估计的是条件概率分布(conditional distribution)—— 作为预测模型。
  • 生成模型:估计的是联合概率分布(joint probability distribution)—— ,然后根据贝叶斯公式   求出条件概率分布 作为预测模型

简单的说:

  • 判别模型只需要学习特征x,从而就可以去预测类别y。做预测时是判断新数据属于哪个类别的概率最大,进而确定新数据的类别,判别模型寻找不同类别之间的最优分类面,反映的是异类数据之间的差异

  • 而生成模型学得是各个类别y,和各自的特征x(即可看成学得多个模型),做预测时是判断新数据和已知类别中的哪个最为接近,进而确定新数据的类别,生成模型能够反映同类数据本身的相似度

由于生产模型学习的是特征x和类别y的联合分布,所以相较于判别模

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值