潜低秩表示:解决数据采样与噪声问题的新方法
在数据分析和处理领域,低秩表示(LRR)是一种强大的技术,常用于子空间聚类和错误纠正。然而,传统的LRR方法在数据采样不足和数据严重损坏的情况下,性能会受到显著影响。为了解决这些问题,潜低秩表示(LatLRR)方法应运而生。
1. 低秩表示(LRR)基础
LRR的核心目标是在给定字典中找到能够将数据样本表示为基的线性组合的最低秩表示。其数学表达式为:
[
\min_{Z} |Z|_ , \text{ s.t. } X_O = AZ
]
其中,$X_O$ 是观测数据矩阵,每个列向量代表一个数据样本;$A$ 是字典;$| \cdot |_ $ 表示矩阵的核范数,即矩阵奇异值之和。
在子空间聚类中,通常将观测数据矩阵本身作为字典,得到以下凸优化问题:
[
\min_{Z} |Z|_*, \text{ s.t. } X_O = X_OZ
]
当子空间相互独立、数据无噪声且数据采样充足时,该问题的最优解 $Z_O^*$ 是广泛使用的形状迭代矩阵(SIM),它是一个“块对角”亲和矩阵,能准确指示数据的真实聚类情况。
为了处理受噪声污染的数据,LRR采用正则化公式,引入额外的正则化项来拟合噪声。
2. 传统LRR方法的问题
传统LRR方法直接将字典 $A$ 设置为观测数据矩阵 $X_O$,存在以下两个主要问题:
- 数据采样不足 :为了能够表示潜在的子空间,字典 $A$ 必须包含从子空间中采样的足够多的数据向量。否则,$Z_O^ =
潜低秩表示解决采样与噪声
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



