主题模型 LDA 入门(附 Python 代码)

一、主题模型

在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。


主题可以被定义为“语料库中具有相同词境的词的集合模式”,比如说,主题模型可以

  • 将“健康”,“医生”,“病人”,“医院” 集合成 “医疗保健” 主题
  • 将 “农场”,“玉米”,“小麦” 集合成 “农业”主题


二、狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型

LDA 模式是生成式模型,在这里,假设需要建模的数据为 X X ,标签信息为 Y

判别式模型:对 Y Y 的产生过程进行描述,对特征信息本身不建模。判别式模型有利于构建分类器或者回归分析生成式模型需要对 X Y Y 同时建模,更适合做无监督学习分析。

生成式模型:描述一个联合概率分布 P ( X , Y ) 的分解过程,这个分解过程是虚拟的过程,真实的数据不是这么产生的,但是任何一个数据的产生过程可以在数学上等价为一个联合概率分布。


LDA 是一种矩阵分解技术,在向量空间中,任何语料(文档的集合)可以表示为文档(Document - Term,DT)矩阵。下面矩阵表达了一个语料库的组成:

. W1 W 1 W2 W 2 Wm W m
D1 D 1 0 2 3
D2 D 2 1 4 0
... . . .
Dn D n 1 1 0

其中, N N 个文档 D 1 , D 2 , , D n 的组成语料库, M M 个词 W 1 , W 2 ,

评论 70
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值