LDA的应用:short text classification

本文介绍了一种利用LDA模型解决短文本分类问题的方法,通过引入外部数据集训练LDA模型,采样得到短文本的主题分布,并将其转化为增强特征向量进行分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文献《Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections》

这个文章提出一个利用LDA辅助分类,以解决短文本词少稀疏问题,使得主题更加集中的framework,是一种semi-supervise的方法

他的做法是

1. 寻找一个辅助的外部数据集合,这里用的是wiki的数据,在这个集合上训练LDA模型

2.对一个短文本,加入LDA模型中sampling,获得对应的topic及权重

3.利用topic信息重构短文本的特征向量:

将每个topic虚拟成一个word,   将对应topic权重[0,1]划分成一些区间并映射成整数(虚拟的tf),如(0,0.1]--->1,(0.1,0.2]--->2,...

将这些虚拟的topicword+tf 补充加入原有文档的word-tf对中,生成新的向量

4.在新的特征向量上训练分类器,测试和预测

(这种做法以前似乎也看到过,不过用的是clustering的结果,LDA其实也能看做是一种soft clustring,参考文献忘记了)


这种做法的亮点是引入辅助的外部数据来解决短文本的稀疏问题。难点是如何寻找一个和短文本的topic structure内在consistent的外部数据集合。

用clustring的那个文章用的是本数据集合clustring的结果,倒是不存在consistent的问题,但是对短文本,clustring结果也不太靠谱。

另外他这种拼出特征向量的处理方式可能是TM/clustring应用于分类的一个路子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值