主题模型LDA快速入门

LDA(Latent Dirichlet Allocation)是一种无监督的贝叶斯模型,常用于主题建模。它将文档视为由多个主题构成的集合,每个主题又由一系列词汇组成。LDA模型通过文档中的单词来推断主题分布,并更新主题和文档之间的概率关系。与PLSA模型相比,LDA引入了Dirichlet分布,更好地处理不确定性。LDA的应用包括新闻分类、简历筛选等,通过词袋模型理解文本数据的潜在结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

直观解释:

什么是lda?

什么是贝叶斯模型?

标准

LDA生成过程

公式

Gamma函数:

二项分布

多项分布

贝叶斯派的思考方式

几个主题模型-循序渐进

Unigram model

Mixture of unigrams model

plsa模型

对比lda 和plsa


lda主题模型一个应用场景:判断一篇新闻究竟属于哪类,比如科技,体育等。

X:一篇文章  Y:分类

直观解释:

简历筛选:百度实习 阿里实习 着装有品位 条纹衬衫 笔试满分 只穿杰克琼斯 中国top2毕业 自称top3毕业 逃离创业泡沫的CTO 长相捉急......

【特征】---组成--->【简历】---分成--->【好坏】

这家企业人力资源判断的过程:

拿出一份份简历

记录下每份简历包含的特征,然而并不知道代表什么

于是开始猜

拿起一份简历A

他看到里面说A去阿里实习过

他猜这位童鞋的水平应该很高,八成是个好工程师

但是有看到A的学历只是小学毕业,心里又有了两层的担忧......

于是又看到B

又看到C

等等......

通过一次次的猜和判断,最终到达对一个类型的分类

总结成公式:

P(优秀程序员|特征,简历) = 此特征在优秀程序员之中出现次数 /优秀程序员拥有所有特征* 此简历中属于优秀程序员的特征个数

【特征】---组成--->【简历】---分成--->【好坏】

【单词】---组成--->【文档】---分成--->【主题】

一袋子单词,根据这些单词可以分成不同类型,这是主题模型的基本思想

什么是lda?

是一种无监督的贝叶斯模型

是一种主题模型,它可以将文档集中每篇文档的主题按概率分布的形式给出,同时它是一种无监督学习算法,在训练时不需要手工标柱训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点是对于每一个主题均可以找出一些词语来描述它。

是一种典型的词袋模型,即它认为一篇文档是又一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

由于词的顺序是没有影响的,因此LDA存在缺陷,后来有很多优化算法。

什么是贝叶斯模型?

--- 用概率作为【可信度】

--- 每次看到新数据就更新【可信度】

--- 需要一个模型来解释数据的生成

先验,后验与似然

P(好工程师|简历) = P(好工程师) P(简历|好工程师)

           后验                  先验               似然

先验<---应聘者概率模型

似然<---简历数据生成模型

概率学派:

1.频度学派:抛硬币 500次,250次

2.贝叶斯学派:先验 后验 似然

人类认知本身都是有刻板印象的,先验是没实验验证的,通过似然函数得到后验值,并不是1/2,可能有一些小小的偏差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值