一、主题模型
在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型(Topic Model)能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。
主题可以被定义为“语料库中具有相同词境的词的集合模式”,比如说,主题模型可以
- 将“健康”,“医生”,“病人”,“医院” 集合成 “医疗保健” 主题
- 将 “农场”,“玉米”,“小麦” 集合成 “农业”主题
二、狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型
LDA 模式是生成式模型,在这里,假设需要建模的数据为 X X ,标签信息为 。
判别式模型:对 Y Y 的产生过程进行描述,对特征信息本身不建模。判别式模型有利于构建分类器或者回归分析生成式模型需要对 和 Y Y 同时建模,更适合做无监督学习分析。
生成式模型:描述一个联合概率分布 的分解过程,这个分解过程是虚拟的过程,真实的数据不是这么产生的,但是任何一个数据的产生过程可以在数学上等价为一个联合概率分布。
LDA 是一种矩阵分解技术,在向量空间中,任何语料(文档的集合)可以表示为文档(Document - Term,DT)矩阵。下面矩阵表达了一个语料库的组成:
. | W1 W 1 | W2 W 2 | … | Wm W m |
---|---|---|---|---|
D1 D 1 | 0 | 2 | … | 3 |
D2 D 2 | 1 | 4 | … | 0 |
... . . . | … | … | … | … |
Dn D n | 1 | 1 | … | 0 |
其中, N N 个文档 的组成语料库, M M 个词