提升微博聚类效果:推文合并方案
1. 短文本稀疏问题的解决方法
短文本的稀疏性问题一直是话题建模和聚类的挑战。为了解决这个问题,有几种常见的方法。
- 聚合短文本为长伪文档 :将短文本聚合成长的伪文档,能有效缓解稀疏问题,同时结合马尔可夫随机场正则化模型,让相关词汇更有可能被划分到同一主题。
- 结合外部长文本 :例如双隐含狄利克雷分配(DLDA)模型,利用与主题相关的外部长文本作为辅助数据,通过迁移学习从短文本和辅助长文本中学习两组主题,并耦合主题参数,实现短文本和长文本聚类的同步。
- 基于上下文信息聚合短文档 :推文包含多种上下文信息,如标签、用户提及、推文链接等,还可从社交互动中获取更多信息。基于这些信息,可将推文聚合,再使用标准的LDA模型进行处理。常见的推文聚合方法有按标签、用户和对话聚合。
2. 推文合并方案
推文合并不仅能提供更长的文档,还能生成主题连贯的文档,从而提升主题模型的训练效果。推文具有多种上下文和辅助信息,如时间戳、用户、用户提及、标签、链接、回复推文和位置等,可利用这些信息找到相关推文并进行合并。
2.1 未合并推文
此方案将每条推文单独处理,不进行任何合并,作为基线方法。
2.2 基于用户的推文合并
将同一用户发布的所有推文合并为一个文档,文档数量与用户数量相同。该方案与作者主题模型(ATM)效果相似,实证表明优于未合并推文的方案。
2.3 基于标签的推文合并
包含相同标签
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



