社交媒体实时滑坡报告检测与在线社交事件检测模型
1. 引言
随着社交媒体平台的迅速发展,如 Twitter、Facebook 和微博等,用户更愿意公开分享日常生活,导致社交媒体消息数据呈爆炸式增长。这些用户生成内容(UGC)可用于各种数据挖掘任务,其中实时事件检测是重要应用之一。然而,现有的事件检测方法存在一些问题,如受随机话题噪声影响,以及在检测持续多天的事件时表现不佳。
2. 相关工作
现有的社交事件检测解决方案主要分为以下三类:
- 文本信息提取 :通过提取文本信息来检测社交事件,如使用 Word2Vec 合并实体和短语、构建故事树等。但这些方法很少考虑数据噪声,会影响检测性能。
- 结构信息提取 :利用用户社交连接和非文本属性进行事件检测,如考虑位置、标签、消息转发等。但结构信息也存在数据噪声,且其时间敏感性给在线检测带来挑战。
- 混合信息提取 :结合文本和结构信息,利用深度学习模型(如 GNN)挖掘社交数据。但这些模型无法满足社交事件的在线检测需求。
3. 问题定义与框架概述
3.1 问题定义
- 社会消息流(Social Message Stream) :一系列按时间顺序连续到达的社会消息,记为 $S_m = {m_1, m_2, …, m_i}$,其中 $m_i$ 表示在时间 $i$ 到达的社会消息。
- 社会事件(Social Events) :
超级会员免费看
订阅专栏 解锁全文
4505

被折叠的 条评论
为什么被折叠?



