摘要:假新闻检测一直是维护网络新闻生态健康的重要任务。然而,在实践中,很少有现有的作品考虑到新闻数据的快速演变性质所导致的时间偏移问题,这导致在对过去数据进行训练和对未来数据进行测试时,性能显著下降。在本文中,我们观察到同一主题的新闻事件的出现可能会随着时间的推移显示出可识别的模式,并假设这些模式可以帮助选择训练实例,使模型更好地适应未来的数据。具体来说,我们设计了一个有效的框架FTT (Forecasting Temporal Trends,预测时态趋势),它可以预测新闻数据的时态分布模式,然后引导检测器快速适应未来的分布。在真实时间分割数据集上的实验证明了我们提出的框架的优越性。
1 介绍
1.1时间(域)偏移(temporal shift)
在过去的十年里,大多数假新闻检测研究人员都遵循一种传统的模式,即收集一个固定的数据集,然后随机地将其分为训练集和测试集。然而,新闻数据子集是独立和相同分布的假设在实际场景中往往不成立。在实践中,假新闻检测模型是在当前时间段之前收集的离线数据上进行训练的,但需要在即将到来的时间段内检测新到达的在线数据中的假新闻。由于新闻的快速演变性质,新闻的分布可能会随着时间而变化,即时间(域&