12、基于L1范数主成分分析的抗异常值数据处理

人间计算器

于 2025-10-31 11:16:22 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：主成分分析前沿探秘文章标签： L1-PCA 主成分分析异常值处理

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/154671339

主成分分析前沿探秘专栏收录该内容

23 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于L1范数主成分分析的抗异常值数据处理

1. 引言与问题提出

主成分分析（PCA）旨在寻找正交方向，以构建一个能使数据存在性最大化的子空间，这些方向由数据的主成分（PCs）定义。在标准PCA中，数据存在性通过投影数据到目标子空间的聚合平方L2范数（即Frobenius范数）来量化，因此标准PCA也被称为L2-PCA。

PCA在过去几十年中广受欢迎，原因如下：
- 可通过奇异值分解（SVD）以低成本实现。
- 具有可扩展性，第k个主成分可在前面k - 1个主成分的零空间中找到。
- 当应用于干净/标称数据点时，能很好地逼近真实的最大方差子空间。

然而，在大数据时代，数据集常受到异常值的污染，异常值是指那些高度偏离的数据样本、错误测量值或突发噪声，通常位于标称数据子空间之外。异常值产生的原因多种多样，包括数据存储或转录错误、传感器间歇性故障、环境感知的偶发性不一致以及恶意插入等。

标准PCA对异常值非常敏感，因为它对所有数据点的大小进行平方加权，这使得位于数据集边缘的异常值获得了过大的权重。为了抵消异常值对基于PCA的数据处理的影响，研究人员提出了替代的PCA公式，主要分为两类：
- 最大化投影数据的聚合L1范数（绝对值之和）。
- 最小化数据表示的聚合绝对误差（即误差的L1范数）。

这些方法由于依赖L1范数，被统称为“L1-PCA”方法。其中，最大投影L1-PCA最近被证明等价于组合优化问题，并且已经提出了两种精确算法来求解其最优解，同时也有一些高效的次优算法。最大投影L1-PCA在图像重建、目标识别、降秩滤波等领域有重要应用。

考虑秩为d ≤ min{D, N}的数据矩阵$X