参考文献《Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections》
这个文章提出一个利用LDA辅助分类,以解决短文本词少稀疏问题,使得主题更加集中的framework,是一种semi-supervise的方法
他的做法是
1. 寻找一个辅助的外部数据集合,这里用的是wiki的数据,在这个集合上训练LDA模型
2.对一个短文本,加入LDA模型中sampling,获得对应的topic及权重
3.利用topic信息重构短文本的特征向量:
将每个topic虚拟成一个word, 将对应topic权重[0,1]划分成一些区间并映射成整数(虚拟的tf),如(0,0.1]--->1,(0.1,0.2]--->2,...
将这些虚拟的topicword+tf 补充加入原有文档的word-tf对中,生成新的向量
4.在新的特征向量上训练分类器,测试和预测
(这种做法以前似乎也看到过,不过用的是clustering的结果,LDA其实也能看做是一种soft clustring,参考文献忘记了)
这种做法的亮点是引入辅助的外部数据来解决短文本的稀疏问题。难点是如何寻找一个和短文本的topic structure内在consistent的外部数据集合。
用clustring的那个文章用的是本数据集合clustring的结果,倒是不存在consistent的问题,但是对短文本,clustring结果也不太靠谱。
另外他这种拼出特征向量的处理方式可能是TM/clustring应用于分类的一个路子