异常检测——基于相似度的方法

一、概述

基于相似度的技术在数据点稀疏或与其他数据点相似度低时将其定义为异常值。数据点的相似性可以用多种方式来定义,这些方式彼此之间有微妙的不同,但却足够相似,值得进行总结说明。离群值分析中定义相似度的最常用方法如下:

  • 基于聚类的方法: 任何群集中的数据点的非隶属性、它与其他群集的距离、最近群集的大小或这些因素的组合被用来量化离群值得分。聚类问题与异常检测问题有着互补关系,在这个问题中,点要么属于聚类,要么应该被认为是离群值。
  • 基于距离的方法: 数据点到其 k- 最近邻(或其他变量)的距离用于定义邻近度。具有大的 k- 近邻距离的数据点被定义为离群点。基于距离的算法通常比其他两种方法在更细的粒度上执行分析。另一方面,这种更大的粒度往往需要大量的计算代价。
  • 基于密度的方法: 数据点在指定的局部区域(网格区域或基于距离的区域)内的其他点的数量,用于定义局部密度。这些局部密度值可以转换为离群值得分。其他基于核的方法或密度估计的统计方法也可以使用。聚类方法和基于密度的方法的主要区别在于聚类方法对数据点进行划分,而基于密度的方法对数据空间进行划分。

显然,所有这些技术都密切相关,因为它们基于某种近似(或相似)的概念。主要的区别在于如何详细界定这种接近程度。这些定义异常值的不同方法可能有不同的优点和缺点。在许多情况下,当使用多个这些概念定义离群值时,这些不同类方法之间的区别就变得模糊了。

基于距离的方法与其他两类方法的一个主要区别在于执行分析的粒度级别。在基于聚类和基于密度的方法中,通过对点或空间进行划分,在离群点分析之前对数据进行预聚集。将数据点与这些预聚数据中的分布进行比较,以便进行分析。另一方面,在基于距离的方法中,计算到原始数据点(或类似变量)的 k- 最近邻距离作为离群值得分。因此,最近邻方法的分析比聚类方法在粒度级别上执行得更为详细。相应地,这些方法为不同大小的数据集在有效性和效率之间提供了不同的折衷。最近邻方法可能需要 o (n2)时间来计算一个数据集的所有 k 个最近邻居的距离与 n 记录,除非索引或剪枝技术被用来加速计算。但是,索引和剪枝技术通常只能在一些受限制的设置(如低维数据集)中工作。此外,剪枝不是为离群值计算而设计的,它只能用于需要报告二进制标签(指示点是否是离群值)的设置。尽管有这些缺点,最近邻方法仍然非常流行。这是因为这种方法通常可以提供更详细和准确的分析,特别是对于不可能进行稳健的聚类或密度分析的较小的数据集。因此,模型的特定选择取决于数据的性质及其大小。

基于相似度的方法自然而然地被设计用来检测噪声和异常,尽管不同的方法适用于这些不同类型的异常值。例如,近似稀疏度的弱定义,比如集群中数据点的非隶属度,自然地被设计用于检测弱离群值(或噪声) ,而基于密度或距离的定义的大偏差或稀疏度也可以检测强离群值(或异常值)。这些方法非常流行,因为它们直观的简单性和可解释性。事实上,许多直觉探索和异常值解释的方法都是基于以邻近为中心的定义。由于底层方法的简单性,它们可以很容易地推广到几乎所有类型的数据,如时间序列数据或图形数据。

二、基于距离的度量

基于距离的⽅法是⼀种常⻅的适⽤于各种数据域的异常检测算法,它基于最近邻距离来定义异常值。 此类⽅法不仅适⽤于多维数值数据,在其他许多领域,例如分类数据,⽂本数据,时间序列数据和序列数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值