来源:VLDB 2024 tutorial track
1. 时序异常研究领域的发展趋势:持续上升
2. 时间序列的基础定义:
① 有序性;② 随时间演进(evolution with time);③ 由一或多种正常模式耦合;
3. 时序异常的 “细致分类” 已在 综述:Definitions and Benchmarks-优快云博客 内讨论过;
4. 需区分:包含单个异常的时序,及包含多个异常(相似或不同)的时序,一些基于最近邻距离的方法可能会受该区别的影响;
5. 时序异常检测方法的基本分类:
① 依据 “输入的不同” 分类( Liu 的分类* ):
无监督:只输入含异常的时序数据,在严格意义上无其他任何有关 “正常 / 异常” 的监督信号;
半监督:在正常的时序数据上训练,在另外的、含异常的时序数据上测试;
有监督:训练时,提前具备了时序数据的正常及异常标签;
PS:此处定义见仁见智,和部分 TSAD 工作所给出的定义不一致!
② 依据 “方法不同” 分类:
6. 有关 “评测指标“:已在 VUS —— 新的 “时序异常” 评估指标_时序异常检测评价指标-优快云博客 中讨论过;(个人倾向于:VUS系列指标 > 原始F1系列指标 > AF - F1系列指标)
7. 目前现有的 TSAD 数据集不可避免地存在 bias 及 mislabel 现象,急需更高质量的数据集;
8. 新的趋势及机会:
当 detectors 被应用于及其异构(源自不同域)的时序时,不存在总体最佳的异常检测方法 →
如何自动识别:针对不同时序数据集的、最准确的异常检测器?
AutoTSAD(自动的时序异常检测 历史工作回顾):
Ⅰ Model Selection:从预定义的候选模型集内,识别 TSAD 的最佳模型及其相应超参数:
① internal evaluation methods:使用 “代理指标” 评估模型有效性,独立于外部数据;(如:模型一致性)
② meta - learning - based methods:利用各种异常检测器在历史标记数据集上的性能知识,为新数据集实现自动的模型选择;
Ⅱ Model Generation:基于候选模型集构建全新模型,新生成的模型独立进行 TSAD;
① ensembling-based methods:模型集成学习;
② pseudo - label - based methods:构造伪标签,将无监督问题转化为有监督问题处理;
其他挑战:领域泛化问题;在线环境及资源限制的固有挑战;推进开发增量自动化解决方案;交互式的 TSAD 探索 ......