LDA的应用：short text classification

最新推荐文章于 2022-05-20 10:06:31 发布

原创最新推荐文章于 2022-05-20 10:06:31 发布 · 3.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一种利用LDA模型解决短文本分类问题的方法，通过引入外部数据集训练LDA模型，采样得到短文本的主题分布，并将其转化为增强特征向量进行分类。

参考文献《Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections》

这个文章提出一个利用LDA辅助分类，以解决短文本词少稀疏问题，使得主题更加集中的framework，是一种semi-supervise的方法

他的做法是

1. 寻找一个辅助的外部数据集合，这里用的是wiki的数据，在这个集合上训练LDA模型

2.对一个短文本，加入LDA模型中sampling，获得对应的topic及权重

3.利用topic信息重构短文本的特征向量：

将每个topic虚拟成一个word, 将对应topic权重[0,1]划分成一些区间并映射成整数(虚拟的tf)，如(0,0.1]--->1，(0.1,0.2]--->2,...

将这些虚拟的topicword+tf 补充加入原有文档的word-tf对中，生成新的向量

4.在新的特征向量上训练分类器，测试和预测

（这种做法以前似乎也看到过，不过用的是clustering的结果，LDA其实也能看做是一种soft clustring，参考文献忘记了）

这种做法的亮点是引入辅助的外部数据来解决短文本的稀疏问题。难点是如何寻找一个和短文本的topic structure内在consistent的外部数据集合。

用clustring的那个文章用的是本数据集合clustring的结果，倒是不存在consistent的问题，但是对短文本，clustring结果也不太靠谱。

另外他这种拼出特征向量的处理方式可能是TM/clustring应用于分类的一个路子

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。