参考文献《empirical study of topic modeling in twitter.》
这个文章考察了LDA在twitter中的应用,用的是最原始的LDA,关键点在于如何融合出合适的维度的训练集合,以及不同方式训练出的LDA的效果
训练集合的融合策略有
这个文章考察了LDA在twitter中的应用,用的是最原始的LDA,关键点在于如何融合出合适的维度的训练集合,以及不同方式训练出的LDA的效果
训练集合的融合策略有
1.直接单条twit
2.同user的twit作为一个doc
3.出现同term的twit作为一个doc
值得关注结论主要有3点
1.按以上3种方式融合生成doc,训练出的topic差异比较大,其中1的T数量大于2和3
2.对于单个twit进行分类时,训练集合效果2LDA>1LDA>tfidf, 说明对短的测试集合,TM有明显效果,且长文本训练TM效果较好,其中3效果可能在2~1之间吧?3.对于user的twit分类,效果是tfidf>TM,说明TM在长文本上并不能提高效果。
2,3实验中,tfidf+TM的组合不一定能提高效果。
(我自己希望测试一下,2训练后对于短文本的短的容忍极限,以及如果按照某种策略融合后再区分成单条twiter后效果是否能提高?后续测量后放在这里吧~)
本文探讨了LDA主题模型在Twitter上的应用效果,通过三种不同的文档构建策略进行了实验对比。结果显示,在短文本分类任务中,以用户为单位聚合推文的LDA模型表现最优;但在用户级别的推文分类中,TF-IDF却优于主题模型。实验还验证了长文档训练对于提升主题模型性能的重要性。
2075

被折叠的 条评论
为什么被折叠?



