网络流量数据异常检测的多种方法
在网络流量数据处理中,异常检测是一项至关重要的任务。本文将介绍几种用于检测网络流量数据中异常的方法,包括集中式的 TopRank 算法以及分散式的 DTopRank、BTopRank 和 MultiRank 算法,并探讨这些算法在实际数据中的应用及参数选择。
1. TopRank 算法
TopRank 算法结合了记录过滤和非参数变点检测测试,可分为以下三个步骤,且这些处理在每个长度为 $P × ∆$ 秒的观察窗口内进行,每个观察窗口结束时会清除所有存储的数据。
- 记录过滤 :对于时间索引 $t$ 在 ${1, \ldots, P}$ 中的每个值,记录 $M$ 个最大计数 $N_i(t)$ 的索引,并标记为 $i_1(t), \ldots, i_M(t)$,以确保 $N_{i_1(t)}(t) \geq N_{i_2(t)}(t) \geq \cdots \geq N_{i_M(t)}(t)$。后续用 $T_M(t)$ 表示集合 ${i_1(t), \ldots, i_M(t)}$。为执行后续步骤,只需存储变量 ${N_i(t), i \in T_M(t), t = 1, \ldots, P}$。
- 创建删失时间序列 :对于上一步中选择的每个索引 $i$($i \in \bigcup_{t = 1}^{P} T_M(t)$),构建删失时间序列。由于 $i$ 不一定属于观察窗口中所有索引 $t$ 的集合 $T_M(t)$,在这种情况下,其值 $N_i(t)$ 不可用,将使用上限 $N_{i_M(t)}(t) = \min_{i \in T_M(t)} N_i(t)$ 进行删
超级会员免费看
订阅专栏 解锁全文
920

被折叠的 条评论
为什么被折叠?



