Towards Detecting Rumours in Social Media 社交媒体中的谣言检测(A11, AAAI2015)
文章结果表明本文可以有效收集社交媒体中一系列故事的谣言,基于需要手动输入谣言特定关键词的现有技术这可能比较困难。文章引入了一个新颖的方法建立社交媒体谣言和非谣言数据集。该方法包含3个主要步骤:(1)收集紧急情况发布的原微博,这样采样易管理人们评估。(2)收集关联每个原微博的会话,包括讨论原微博的回复。(3)收集采样的微博的人工标注。
谣言标注
先前的微博谣言故事的标注工作基于这些故事以前的识别,如通过总结和揭露谣言的媒体报告,定义每个谣言的一组相关关键词用于过滤微博。该方法能保证为每个谣言收集许多微博,但是不能保证收集的关联一个事件的故事的多样性。文章定义广泛涉及正在进行事件的关键词,不是谣言本身,但是有望引发谣言。获取事件集合后,工作集中在可视化一个事件相关的微博时间轴,可以在不必要知道先验知识的情况下识别故事集的谣言内容,期望产生一个更多样的集合。
- 采用采样技术减少标注的微博数。有问题的信息直到被很多人传播和讨论后才成为谣言。基于这个假设,抽取超过给定数量转帖的微博。
- 一条微博发布时可能不能总是可以判定故事是否是谣言。因此也收集原微博的回帖。
- 为了方便标注任务,文章开发了一个工具&