1.基本介绍
现实世界中,很多数据的维度非常高,许多传统的异常检测方法在高维数据中无法有效工作。这也叫维度灾难/维度诅咒/维度惩罚。
在高维空间中,当进行全维分析时,数据变得稀疏,真正的异常值被多个不相关维数的噪声效应所掩盖。
维度灾难的一个主要原因是在高维情况下,难以定义一个点的相关局部性。例如,在高维空间中,所有点对几乎是等距的。这种现象被称为数据稀疏或距离集中。而异常值是定义为稀疏区域中的数据点,这导致了一种鉴别性差的情况,即所有数据点都位于几乎相同的稀疏区域中,具有全维度。
1.1 局部相关维度
局部相关维度:一个物体可能有几个被测量的量,这个物体的显著异常行为可能只反映在这些量的一小部分中。
也即,一小部分的测量的数据中可能可以找到异常值,因为数据维度不高,但是当来自测量的数据以全维度表示时,异常数据点将在几乎所有数据视图中显式为正常。即大量正常测量的噪声变化将掩盖异常值。
因此,异常值通常嵌入到局部相关的子空间中。
因此,探索低维子空间以获得感兴趣的偏差是有意义的。这种方法过滤掉了大量维数的加性效应,并导致了更健壮的异常值。
1.2 投影异常值检测 / 子空间异常值检测
在缺少属性值的数据集中,这种低维投影也经常可以被识别。这对于许多实际问题是有用的。因为很多情况下,特征提取是一个困难的过程,并且通常存在不完整的特征描述。
例如,在机身故障检测中,可能只应用了一个测试子集,因此只有一个维度子集的值可以用于异常分析。
这种模型称为投影异常值检测,或叫做子空间异常检测。
1.3 相关子空间的识别
相关子空间的识别是一个非常具有挑战性的问题。 这是因为高维数据的可能投影数与数据的维数呈指数关系。 一种有效的离群点检测方法需要对数据点和维数进行综合搜索,以揭示最相关的离群点。 这是因为不同的维度子集可能与不同的异常值相关。
一般来说,为每个数据点选择一个单一的相关子空间会导致不可预测的结果,因此,将来自多个子空间的结果组合起来是很重要的。换句话说,子空间的异常检测本质上是一个以集合为中心的问题。
1.4 识别子空间的几类常用方法
基于稀有性:
这些方法视图从底层分布的稀有性来发现子空间。这里的主要挑战是计算,因为在高维中,稀有子空间的数量远远大于密集子空间的数量。
无偏:
在这些方法中,子空间是以无偏的方式采样的,并且分数被组合在采样的子空间上。
当子空间从原始属性集采样时,该方法称为特征袋。
在任意定向的子空间被采用的情况下,该方法被称为旋转袋或旋转子空间采样。
虽然这些方法很简单,但是通常工作的很好。
基于聚合的方法:
在这些方法中,聚合统计 (如数据的全局或局部子集的聚类统计、方差统计或非均匀统计) 用于量化子空间的相关性。
与基于稀有的统计不同,这些方法量化了全局或局部参考集的统计属性,而不是试图直接识别很少填充的子空间。
由于这类方法仅提供弱提示(且易于出错)来标识相关子空间,因此采样多个子空间是至关重要的。
2.Axis-Parallel Subspaces轴-并行子空间(组合多个子空间采样)
2.1 基本介绍
在轴-平行子空间方法中,异常值是由轴-平行子空间定义的。在这些方法中,是在原始数据的特征子集中定义一个异常值。然后需要仔细量化这样才能比较各个子空间的得分。除此之外,还需要量化各种子空间在暴露异常值方面的有效性的方法。
轴-平行方法使用的方法有两个主要变化:
第一类方法:逐个点地检测,并确定其相关的外围子空间。这本质上是一种基于实例的方法。显然,计算上是昂贵的。但

本文深入探讨了高维数据中异常检测的挑战,特别是维度灾难带来的问题。局部相关维度的概念指出,异常值可能只在数据的某些子空间中显现。投影异常值检测和子空间异常值检测是应对这一问题的有效策略,通过在低维子空间中寻找异常行为。文章介绍了特征袋、旋转袋等集成方法,强调了组合多个子空间结果的重要性。遗传算法和基于距离的外围子空间寻找也被提及,同时讨论了轴-平行和广义子空间的差异。最后,提出了非线性子空间和回归建模技术在处理复杂数据流形中的应用。
最低0.47元/天 解锁文章
2706

被折叠的 条评论
为什么被折叠?



