数据流异常检测与分类技术解析
1. 数据流异常检测
1.1 基本统计计算与更新
在数据流中插入新数据点时,需要进行一系列统计计算。首先,计算新插入数据点的可达距离和局部离群因子(LOF)分数等统计信息。接着,更新窗口内现有数据点的 LOF 分数、密度和可达距离。不过,并非所有现有数据点的分数都需要更新,因为新数据点的加入仅影响其局部区域的数据点。同理,当删除数据点时,也只有被删除点局部区域的 LOF 分数会受到影响。
1.2 基于聚类的异常检测
基于距离的异常检测方法计算成本较高,在数据流场景下更是如此。因此,采用基于在线聚类的方法可以显著降低异常检测过程的复杂度。微聚类方法能够自动发现聚类和异常点。在数据流分析中,通常有足够多的数据点来维持高粒度的聚类。例如,CluStream 算法在处理数据流时,如果新数据点不在现有聚类的指定统计半径内,就会创建新的聚类,这些数据点可能被视为异常点。这些异常点可能预示着新趋势的开始,也可能对应着新奇事件或过去出现但当前聚类未反映的趋势。但要区分这些不同类型的异常点,需要允许数据流中的聚类数量随时间增加。
1.3 聚合变化点作为异常点
底层数据中局部和全局趋势的突然变化往往表明数据中存在异常事件。许多方法提供了量化数据流变化程度的统计方法,其中一种是使用速度密度的概念。速度密度估计的思路是构建数据的基于密度的速度轮廓,类似于静态数据集中的核密度估计。
1.3.1 核密度估计
对于 n 个数据点和核函数 (K’ h(\cdot)),核密度估计 (f(X)) 定义为:
[f(X) = \frac{1}{n} \su
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



