社交媒体事件主题提取:RKLDA模型的应用与评估
1. 现有主题提取方法概述
在社交媒体事件主题提取领域,主要存在基于聚合和基于知识的两种方法:
- 基于聚合的方法 :部分研究在应用传统主题模型前,会基于作者身份、共享词汇或话题标签对微博帖子进行聚合。例如Self - Aggregation based Topic Model (SATM) 将短文本聚合和主题归纳整合为统一模型;还有研究直接考虑帖子中的词对共现以增强主题发现。然而,这些启发式方法严重依赖数据集,且缺乏先验知识引导主题推导,可能导致主题生成缺乏连贯性。
- 基于知识的方法 :近期研究表明词嵌入能够捕捉语言中的词汇语义规律。一些方法将预训练的词嵌入作为先验知识来深入理解消息,但这种先验知识依赖大量外部资源进行有意义的词嵌入预训练。LeadLDA则将领导者概率作为先验知识来引导主题推断。不过,这些方法通常从单个事件推导主题,忽略了多个事件的共享上下文。
与以往工作不同,提出的RKLDA模型能够自动挖掘跨事件的强化知识,以引导每个事件生成更连贯的主题。同时,为缓解帖子的数据稀疏性和噪声问题,该模型还整合了词嵌入和对话树结构。
2. Reinforced Knowledge LDA(RKLDA)模型
2.1 RKLDA模型的整体流程
RKLDA模型由三个步骤组成:
1. 生成先验主题(p - topics) :对每个事件 $D_i$ 运行一个整合对话树结构和词嵌入的主题模型,生成一组先验主题 $S_i$。
2.