参考文献《empirical study of topic modeling in twitter.》
这个文章考察了LDA在twitter中的应用,用的是最原始的LDA,关键点在于如何融合出合适的维度的训练集合,以及不同方式训练出的LDA的效果
训练集合的融合策略有
这个文章考察了LDA在twitter中的应用,用的是最原始的LDA,关键点在于如何融合出合适的维度的训练集合,以及不同方式训练出的LDA的效果
训练集合的融合策略有
1.直接单条twit
2.同user的twit作为一个doc
3.出现同term的twit作为一个doc
值得关注结论主要有3点
1.按以上3种方式融合生成doc,训练出的topic差异比较大,其中1的T数量大于2和3
2.对于单个twit进行分类时,训练集合效果2LDA>1LDA>tfidf, 说明对短的测试集合,TM有明显效果,且长文本训练TM效果较好,其中3效果可能在2~1之间吧?3.对于user的twit分类,效果是tfidf>TM,说明TM在长文本上并不能提高效果。
2,3实验中,tfidf+TM的组合不一定能提高效果。
(我自己希望测试一下,2训练后对于短文本的短的容忍极限,以及如果按照某种策略融合后再区分成单条twiter后效果是否能提高?后续测量后放在这里吧~)