AnyOut:流数据上的随时异常检测
1. 异常检测概述
异常检测旨在找出那些与其他观测值偏差极大,以至于让人怀疑其是由不同机制生成的观测值。在众多应用场景中,如传感器网络,数据的生成依赖于外部环境的变化,数据到达率并非恒定。这就给异常检测带来了挑战,传统的流数据异常检测方法通常假设数据到达率固定,无法满足随时异常检测的需求,即检测过程可中断,且随着时间增加检测精度能提高。
2. 相关工作
- 监督式异常检测 :将其作为不平衡分类问题研究,需要有标签的异常数据作为训练集,但实际中往往难以获取。
- 无监督式异常检测 :不依赖有标签的训练数据,而是基于数据的偏差来识别异常。常见方法包括统计异常检测(假设数据服从特定分布,不符合该假设的为异常)、基于距离的异常检测(找出与大多数对象距离较远的对象)和基于聚类的异常检测(利用聚类识别有效数据的固有结构,找出聚类效果不佳的对象)。
- 局部异常因子(LOF) :不追求明确区分异常值和正常值,而是通过评分函数反映偏差程度,对对象按异常程度进行排序。
- 时间序列异常检测 :与流数据异常检测有一定区别,时间序列假设在检测时数据全部可用,目标是识别相邻时间值的异常模式,而非单个异常对象。
- 现有流数据异常检测方法 :都假设数据到达率固定,无法满足随时异常检测的要求。
超级会员免费看
订阅专栏 解锁全文
1675

被折叠的 条评论
为什么被折叠?



