LDA在短文本(twiter)应用

本文探讨了LDA主题模型在Twitter上的应用效果,通过三种不同的文档构建策略进行了实验对比。结果显示,在短文本分类任务中,以用户为单位聚合推文的LDA模型表现最优;但在用户级别的推文分类中,TF-IDF却优于主题模型。实验还验证了长文档训练对于提升主题模型性能的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文献《empirical study of topic modeling in twitter.》
这个文章考察了LDA在twitter中的应用,用的是最原始的LDA,关键点在于如何融合出合适的维度的训练集合,以及不同方式训练出的LDA的效果
训练集合的融合策略有

1.直接单条twit

2.同user的twit作为一个doc

3.出现同term的twit作为一个doc


值得关注结论主要有3点

1.按以上3种方式融合生成doc,训练出的topic差异比较大,其中1的T数量大于2和3

2.对于单个twit进行分类时,训练集合效果2LDA>1LDA>tfidf, 说明对短的测试集合,TM有明显效果,且长文本训练TM效果较好,其中3效果可能在2~1之间吧?

3.对于user的twit分类,效果是tfidf>TM,说明TM在长文本上并不能提高效果。

2,3实验中,tfidf+TM的组合不一定能提高效果。

(我自己希望测试一下,2训练后对于短文本的短的容忍极限,以及如果按照某种策略融合后再区分成单条twiter后效果是否能提高?后续测量后放在这里吧~)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值