SEDANSPOT Detecting Anomalies in Edge Streams阅读记录

最新推荐文章于 2025-05-04 06:00:00 发布

原创

最新推荐文章于 2025-05-04 06:00:00 发布 · 593 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#论文

个人blog 文章链接

Why：

先前的工作表明，在许多应用程序中，欺诈或重要事件的确确实发生了尖峰或活动爆发。（比如网络安全问题，诈骗，重大节日（节日产生比平常更长的通话时间））。尽管异常活动倾向于突发，但突发性不一定表示异常：在诸如网络流量之类的动态情况下，正常活动也可能是突发性的。因此，为了进行可靠的检测，我们需要结合时间和结构信息。

同时蓄水池采样和随机游走重新启动(RWR)算法对现在这个突发问题的局限。

$I$ . Introduction

我们考虑在这种边缘流中实时实时检测异常的问题，其目的是在当边来时候，检测它是否异常。尽管在线图形异常检测是一个经过充分研究的研究领域，但大多数方法都假设边已被汇总到图形快照中。相比之下，该文章提出算法可将边缘流几乎实时地直接处理边异常，这对于减少恶意活动的影响并及时启动恢复过程至关重要。此外，鉴于顶点的数目是先验未知的，并且可以随着流的进行而增长，因此该算法应在图大小下的存储亚线性中进行操作。

在这里插入图片描述

由于异常的定义可能取决于上下文，因此我们专注于检测连接图的稀疏连接部分的边（桥边）。

在这里插入图片描述

这些“红色”边缘的同时发生不是偶然。先前的工作表明，在许多应用程序中，欺诈或重要事件的确确实发生了尖峰或活动爆发。（比如网络安全问题，诈骗，重大节日（节日产生比平常更长的通话时间））。尽管异常活动倾向于突发，但突发性不一定表示异常：在诸如网络流量之类的动态情况下，正常活动也可能是突发性的。因此，为了进行可靠的检测，我们需要结合时间和结构信息。

$I I I$ . Background

蓄水池采样是一种经典算法，用于维护流中元素的固定大小的统一样本。但是不能对突发周期的边缘进行降采样。

随机游走重新启动(RWR) v的相关性得分，关于u是点从u出发，重启概率是 $a$ ，最后在v的稳态概率。直接使用RWR是代价（时间的空间）昂贵的，（该文使用的是近似的方法，局部随机游走），边缘流的RWR相关性分数计算的现有工作要么假设一个提前知道的起始顶点，要么维持所有对相关性分数。因此不适用于我们的环境。

在这里插入图片描述

$I V$ . Problem Framework

目的是通过时间和空间找到异常的边，它们趋向于（i）发生活动爆发，并且（ii）连接图的稀疏连接部分。(上文提到说正常活动也可能是突发的，节假日的通话时间更长，可以理解虽满足第一个活动爆发的条件，但是不满足第二点)为了使用有限内存快速进行此操作，我们对到目前为止看到的边缘保持固定大小的样本，并使用它对任何新边缘的异常情况进行评分。因此，问题1可以细分为两个子问题，每个子问题都包含上述异常信号之一，如下所示：

在这里插入图片描述

$V$ . Proposed Method

SEDANSPOT(Alg. 1) 通过 SEDANSCORER(Alg. 3) 对每一条边与当前的边采样比较得到一个异常分数。

采样基于边来更新，使用SEDANSAMPLER(Alg. 2)。

在这里插入图片描述

$\propto$ ：正比于， $r (.)$ 是边变化率的度量，因此较大的值表示边缘的爆发更剧烈。直观来讲，加权蓄水池采样可以确保如果因为活动爆发期间发生的攻击导致基础图G的某个区域单独稠密连接。在采样图的相关区域中仍然有些稀疏连接。（可以认为采样图是一直保持一个相对正常连接的图形状态），这为检测属于同一攻击的后续边缘奠定了基础，攻击出现在相同的区域。（因为采样图还是正常状态，在采样的图上算异常得分还是会高，而且是因为同一个区域导致的得分高）