本文是对《Revisiting Time Series Outlier Detection: Definitions and Benchmarks》文章的翻译。
重新审视时间序列异常检测:定义和基准
摘要
时间序列离群点检测在过去十年中得到了广泛的研究,提出了许多先进的算法。尽管做出了这些努力,但很少有研究调查我们应该如何对现有算法进行基准测试。特别是,使用合成数据集进行评估已成为文献中的常见做法,因此,有一个通用的综合标准来对算法进行基准测试至关重要。这是一项非常重要的任务,因为现有的合成方法在不同的应用中非常不同,并且离群值定义通常是不明确的。为了弥补这一差距,我们提出了一种行为驱动的时间序列离群分类法,并将离群分类为具有明确上下文定义的点和模式离群。按照新的分类法,我们提出了一个通用的综合标准,并相应地生成了35个综合数据集。我们进一步确定了来自不同领域的4个多元现实世界数据集,并在合成数据集和现实世界数据集中对9个算法进行了基准测试。令人惊讶的是,我们观察到一些经典算法可以优于许多最近的深度学习方法。数据集、预处理和合成脚本以及算法实现在GitHub中可以看到。
1 引言


从时间序列数据中检测异常值在各个领域具有广泛的应用,如制造商、边缘设备和HVAC系统。已经提出了许多用于时间序列离群点检测的算法,包括基于预测的模型,如自回归和循环神经网络,多数建模方法,如孤立森林和自编码器

本文探讨了时间序列离群值检测的定义和基准测试方法,提出了行为驱动的分类法,细化了点离群值和模式离群值。研究发现,经典算法在合成和真实数据集上的表现往往优于深度学习方法。此外,文章提出了一个通用的综合标准,并生成了35个合成数据集,以帮助评估不同类型的异常值检测算法。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



