低秩异常值检测方法解析
1. 异常值检测概述
在大规模数据库中,异常值检测有着广泛的应用,无论是医疗领域的欺诈检测、执法过程中的身份验证,还是其他众多行业,都离不开异常值检测。其核心目标是在给定数据集中识别出异常行为或样本。
通常,发现未知数据空间的能力是衡量异常值检测算法有效性的重要指标。直观的做法是找到一个能覆盖大部分正常数据点的特定区域,处于该区域之外的新样本就可被识别为异常值。然而,这一想法在实际操作中面临诸多困难:
- 高维空间中正常区域难以定义 :在高维空间里,要定义一个包含每个正常样本的正常区域并非易事。
- 边界模糊 :正常数据与异常值之间的边界通常比较模糊,靠近边界的异常值可能会被误判为正常数据。
- 数据描述随时间变化 :正常数据或异常值的描述可能会随时间改变,这意味着当前确定的边界在未来可能不再适用。
现有的异常值检测技术主要分为统计参数方法和非参数方法两类:
- 统计参数方法 :这类方法假设已知数据的潜在分布,并需要估计给定分布的参数。一般来说,异常值被定义为偏离假设模型的观测值。但由于高维数据的分布先验知识通常未知,所以这类方法不太适合处理高维数据。
- 非参数方法 :非参数方法无需依赖特定模型。例如,基于距离的方法利用局部距离测量,适合处理大规模和高维数据库。此外,支持向量数据描述(SVDD)也是一种有趣的非参数方法,其原理是在高维空间中找到一个非线性超球体,以尽可能小的半径包围尽可能多的样本。不过,当训练样本分布复
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



