笔记：Learning Robust and Discriminative Subspace With Low-Rank Constraints

最新推荐文章于 2025-03-09 13:07:33 发布

XueShengke

最新推荐文章于 2025-03-09 13:07:33 发布

阅读量1.7k

点赞数

分类专栏：图像处理稀疏表示文章标签： low-rank Fisher supervised

图像处理同时被 2 个专栏收录

13 篇文章

订阅专栏

稀疏表示

12 篇文章

订阅专栏

本文介绍了一种名为SRRS的监督学习方法，该方法结合低秩约束，从噪声数据中学习健壮且有区分性的子空间。SRRS利用标签信息增强子空间的判别能力，通过优化算法解决带有正交约束的秩最小化问题，适用于降维和分类任务。

Li, S. and Y. Fu, Learning Robust and Discriminative Subspace With Low-Rank Constraints. IEEE Transactions on Neural Networks and Learning Systems, 2016. 27(11): p. 2160-2173.
本文是这篇 Trans. on NNLS 期刊论文的笔记，主要是对文中的理论方法进行展开详解。本人学术水平有限，文中如有错误之处，敬请指正。

摘要： 此文目标是学习健壮的、有区分的子空间，从噪声数据中。子空间学习大量用于提取有辨别力的特征，用于分类。此文提出的一个由判别力的子空间学习方法 supervised regularization-based robust subspace (SRRS) 方法，结合了 low-rank 约束。SRRS 找出噪声数据的 low-rank 表示，同时从恢复的数据中学习出有判别的子空间。监督约束函数使用了标签信息，增强了子空间的区分度。此方法是一个带约束的 rank 最小化问题，设计采用増广 Lagrange 乘子法解决。强调，此文学习了一个低维的子空间，并显示地结合了监督信息。

1 简介

简短地提及了多种子空间学习的方法，PCA，LDA，LPPs，NPE，LSDA，DLA。其基本思想是找到一个低维的投影，满足某些性质。PCA 是非监督的，使得投影后的样本的方差最大化，而 LPP 和 NPE 保留了样本的局部关系。有了类别标签之后，有监督的方法适合于分类。LDA 旨在找到一个投影，同时使样本的类间差异最大，而类内的差异最小。它提取了有判别性的特征用于分类。这些方法在干净的数据上是效果很理想，但是当有一定的噪声和变化之后，其效果就变差了。

Sparse representation (SR) 稀疏表达是经典的，被用于处理噪声数据的问题。其一些方法没有考虑到数据的全局结构，它们对噪声不鲁棒，而且不能够提取出干净的数据。

Low-rank 模型是 SR 的扩展，最近被关注，可以恢复出隐含的数据结构。当数据只属于一个类别时， RPCA 就通过最小化矩阵的秩，恢复出原始的数据。其变形有 LRR 和 Latent LRR 。low-rank 模型通常有很大的计算负担，一个分而治之（divide and conquer）的思想 1 2，使它们能扩展到大数据集。

目前，很少有方法在 low-rank 学习中使用标签信息；传统的子空间学习方法有假设数据的分布，对一些噪声数据很敏感。此文平衡了监督子空间学习和 low-rank 模型用于分类的优点。

此文的主要贡献有：

此文找出一个判别性的、强健的子空间，对噪声、姿势、光照变化不敏感，用于降维和分类。
提出的 supervised regularization-based robust subspace (SRRS) 方法，从噪声的数据中学习到 low-rank representation，同时从干净的数据里学习一个判别性的子空间。
为了提升分类的性能，自然加入了类别的标签信息，于目标函数的监督约束中。

这里写图片描述

2 相关工作

略

3 SRRS

3.1 模型构建

$X$ 表示属于 $c$ 类的 $n$ 个样本， $X = [x_1, x_2, \cdots, x_n]$ 。有了一个完备基矩阵 $A = [a_1, a_2, \cdots, a_m] \in \mathbb{R}^{d \times m}$ ，用基的线性组合表示样本

X = A Z ， (1)

$\begin{equation} \tag{1} X = A Z， \end{equation}$
其中

Z∈Rm×n $Z \in \mathbb{R}^{m \times n}$ 是系数。为了找出一个鲁棒的子空间，首先定义投影的低维的样本

X~=PTX=PTAZ $\tilde{X} = P^T X = P^T A Z$ 。接着，依次结合低秩约束和监督约束来学习投影

P $P$ 。已知

n $n$ 个样本属于

c $c$ 个类别，有

n≫c $n \gg c$ ; 系数矩阵

Z $Z$ 应该是 low-rank 的；换一句话说，

Z $Z$ 中的系数向量（属于同样的类别）应该是非常相关的。

因为标签信息对于分类是非常重要的，此文设计了一个监督约束项 $f(P,Z)$ 基于 Fisher criterion 3， $f(P,Z) = [\text{tr}(S_B(P^T AZ)) / \text{tr}(S_W(P^T AZ))]$ ，其中 $\text{tr}(\cdot)$ 是迹函数， $S_B(\cdot), \ S_W(\cdot)$ 分别是类间散度和类内散度，

S B (P T A Z) S W (P T A Z) = S B (X ~) = \sum i = 1 c n i (m i - m) (m i - m) T, = S W (X ~) = \sum i = 1 c \sum j = 1 n i (x ~ i j - m i) (x ~ i j - m i) T, (2) (3)

$\begin{align} S_B(P^T AZ) &= S_B(\tilde{X}) = \sum_{i=1}^{c} n_i (m_i - m)(m_i -m)^T, \tag{2} \\ S_W(P^T AZ) &= S_W(\tilde{X}) = \sum_{i=1}^{c} \sum_{j=1}^{n_i} (\tilde{x}_{ij} - m_i)(\tilde{x}_{ij} -m_i)^T, \tag{3} \end{align}$
其中

mi $m_i$ 是样本

X~ $\tilde{X}$ 中第

i $i$ 类的均值，

m $m$ 是所有样本

X~ $\tilde{X}$ 的均值，

x~ij $\tilde{x}_{ij}$ 是所有数据中第

i $i$ 类中、第

j $j$ 个样本。通过 Fisher criterion，投影后的样本，不同类别之间间隔较远，相同类别的样本更接近。而且，Guo et al. 4 指出迹的比值问题可以转化为迹的差问题，所以重写

f¯(P,Z)=[tr(SW(PTAZ))−tr(SB(PTAZ))] $\bar{f}(P,Z) = [\text{tr}(S_W(P^T AZ)) - \text{tr}(S_B(P^T AZ))]$ 。基于此，提出优化目标函数

min Z, P rank (Z) + λ 1 f ¯ (P, Z), s . t . X = A Z, (4)

$\begin{equation} \tag{4} \min_{Z,P} \ \text{rank}(Z) + \lambda_1 \bar{f}(P,Z), \ \ \mathrm{s.t.} \ X = AZ, \end{equation}$
其中，参数

λ1 $\lambda_1$ 平衡上述两项的作用。

但是上述问题很难直接求解，因为 $\text{rank}(\cdot)$ 是非凸的。于是核范数（矩阵的奇异值之和）用于代替它，问题变成了

min Z, P | | Z | | * + λ 1 f ¯ (P, Z), s . t . X = A Z . (5)

$\begin{equation} \tag{5} \min_{Z,P} \ ||Z||_* + \lambda_1 \bar{f}(P,Z), \ \ \mathrm{s.t.} \ X = AZ. \end{equation}$
此文也注意到，

f¯(P,Z) $\bar{f}(P,Z)$ 关于

Z $Z$ 也是非凸的，所以可以加入一个额外的项，保证凸性

f^(P, Z) = tr (S W) - tr (S B) + η | | P T A Z | | 2 F . (6)

$\begin{equation} \tag{6} \hat{f}(P,Z) = \text{tr}(S_W) - \text{tr}(S_B) + \eta || P^T A Z ||_F^2 \ . \end{equation}$
此文将上式转化为矩阵形式，（Appendix 理论上证明

f^(P,Z) $\hat{f}(P,Z)$ 关于

Z $Z$ 的凸性）

f^(P, Z) = | | P T A Z (I - H b) | | 2 F - | | P T A Z (H b - H t) | | 2 F + η | | P T A Z | | 2 F, (7)

$\begin{equation} \tag{7} \hat{f}(P,Z) = || P^T A Z (I - H_b) ||_F^2 - || P^T A Z (H_b - H_t) ||_F^2 + \eta || P^T A Z ||_F^2 \ , \end{equation}$
其中

η $\eta$ 是权衡参数，

||⋅||2F $||\cdot||_F^2$ 是 Frobenius 范数，

I∈Rn×n $I \in \mathbb{R}^{n \times n}$ 是单位矩阵，

Hb,Ht $H_b, H_t$ 是两个常系数矩阵。具体地，当

xi,xj $x_i,x_j$ 属于同一类别时，

Hb(i,j)=(1/nc) $H_b(i,j) = (1/n_c)$ ，

nc $n_c$ 是一个类别中样本的个数；否则，当

xi,xj $x_i,x_j$ 不属于同一类别时，

Hb(i,j)=0 $H_b(i,j) = 0$ 。而

Ht(i,j)=(1/n) $H_t(i,j) = (1/n)$ 。现在监督约束项

f^(P,Z) $\hat{f}(P,Z)$ 是关于

Z $Z$ 凸的。

为了保证子空间的投影是正交的， $P^T P = I$ 约束也加入，其中 $I \in \mathbb{R}^{p \times p}$ 。现在写出新的优化目标函数

min Z, P s . t . | | Z | | * + λ 1 (| | P T A Z (I - H b) | | 2 F - | | P T A Z (H b - H t) | | 2 F + η | | P T A Z | | 2 F) X = A Z, P T P = I . (8)

$\begin{align} \min_{Z,P} \ & ||Z||_* + \lambda_1 \left( || P^T A Z (I - H_b) ||_F^2 - || P^T A Z (H_b - H_t) ||_F^2 + \eta || P^T A Z ||_F^2 \right) \\ \mathrm{s.t.} \ & \ X = A Z, \ P^T P = I \ . \tag{8} \end{align}$
此目标函数关于

P $P$ 还不是凸的，因为正交约束

PTP=I $P^T P = I$ 。此文采用

ℓ2,1 $\ell_{2,1}$ 范数（

||E||2,1=∑nj=1∑di=1([E]ij)2−−−−−−−−−−√ $||E||_{2,1} = \sum_{j=1}^{n} \sqrt{\sum_{i=1}^{d} ([E]_{ij})^2}$ ），模拟数据中包含的噪声。它有如下 3 个性质：1)

||αE||2,1=|α|⋅||E||2,1 $|| \alpha E||_{2,1} = |\alpha| \cdot ||E||_{2,1}$ ，其中

α $\alpha$ 是一个实标量；2) 三角不等式，

||B+E||2,1≤||B||2,1+||E||2,1 $||B+E||_{2,1} \leq ||B||_{2,1} + ||E||_{2,1}$ ；3) 存在零向量，如果

||E||2,1=0 $||E||_{2,1} = 0$ ，那么

A=0 $A = 0$ 。它使得

E $E$ 中的某一些列为 0，这个假设在此文中就是某些数据被损坏，而另一些没有（数据矩阵

X $X$ 中，列代表样本的个数）。我们有了约束

X=AZ+E $X = AZ + E$ ，将目标函数重写

min Z, E, P s . t . | | Z | | * + λ 2 | | E | | 2, 1 + λ 1 (| | P T A Z (I - H b) | | 2 F - | | P T A Z (H b - H t) | | 2 F + η | | P T A Z | | 2 F) X = A Z + E, P T P = I . (9)

$\begin{align} \min_{Z,E,P} \ & ||Z||_* + \lambda_2 ||E||_{2,1} + \lambda_1 \left( || P^T A Z (I - H_b) ||_F^2 - || P^T A Z (H_b - H_t) ||_F^2 + \eta || P^T A Z ||_F^2 \right) \\ \mathrm{s.t.} \ & \ X = A Z + E, \ P^T P = I \ . \tag{9} \end{align}$

3.2 优化算法

此文采用经典的増广 Lagrange 乘子法 (inexact ALM algorithm) 5。为了求解方便，加入一个松弛变量 $Z = J$ ，原问题转化为

min Z, E, P, J s . t . | | J | | * + λ 2 | | E | | 2, 1 + λ 1 (| | P T A Z (I - H b) | | 2 F - | | P T A Z (H b - H t) | | 2 F + η | | P T A Z | | 2 F) X = A Z + E, P T P = I, Z = J . (10)

$\begin{align} \min_{Z,E,P,J} \ & ||J||_* + \lambda_2 ||E||_{2,1} + \lambda_1 \left( || P^T A Z (I - H_b) ||_F^2 - || P^T A Z (H_b - H_t) ||_F^2 + \eta || P^T A Z ||_F^2 \right) \\ \mathrm{s.t.} \ & \ X = A Z + E, \ P^T P = I , \ Z = J. \tag{10} \end{align}$
将其约束加入目标函数中，得到

min Z, E, P, J, Y, R s . t . | | J | | * + λ 2 | | E | | 2, 1 + λ 1 (| | P T A Z (I - H b) | | 2 F - | | P T A Z (H b - H t) | | 2 F + η | | P T A Z | | 2 F) + < Y, X - A Z - E > + < R, Z - J > + μ 2 (| | X - A Z - E | | 2 F + | | Z - J | | 2 F) P T P = I . (11)

$\begin{align} \min_{Z,E,P,J,Y,R} \ & ||J||_* + \lambda_2 ||E||_{2,1} + \lambda_1 \left( || P^T A Z (I - H_b) ||_F^2 - || P^T A Z (H_b - H_t) ||_F^2 + \eta || P^T A Z ||_F^2 \right) \\ & \quad + <Y, X - AZ -E> + <R, Z - J> + \frac{\mu}{2} \left( ||X-AZ-E||_F^2 + ||Z-J||_F^2 \right) \\ \mathrm{s.t.} \ & \ P^T P = I \ . \tag{11} \end{align}$
其中，

μ>0 $\mu > 0$ 是惩罚项系数，

Y∈Rd×n,R∈Rm×n $Y \in \mathbb{R}^{d \times n}, R \in \mathbb{R}^{m \times n}$ 是 Lagrange 乘子矩阵，矩阵内积

<A,B>=tr(ATB) 。接下来是交替更新变量，

P→J,Z,E→Y,R $P \rightarrow J,Z,E \rightarrow Y,R$ 。虽然 3 个或更多变量情况的増广 Lagrange 乘子法的收敛性没有被证明 6 。

更新 $P$

P k + 1 = arg min P k λ 1 (| | P T k A Z k (I - H b) | | 2 F - | | P T k A Z k (H b - H t) | | 2 F + η | | P T k A Z k | | 2 F) s.t. P T k P k = I . (12)

$\begin{align} P_{k+1} =&\, \arg\min_{P_k} \ \lambda_1 \left( || P_k^T A Z_k (I - H_b) ||_F^2 - || P_k^T A Z_k (H_b - H_t) ||_F^2 + \eta || P_k^T A Z_k||_F^2 \right) \\ & \ \text{s.t.} \ \ P_k^T P_k = I. \tag{12} \end{align}$
简化公式，定义

Zwk=AZk(I−Hb), Zbk=AZk(Hb−Ht) $Z_{wk} = AZ_k(I - H_b),\ Z_{bk} = AZ_k(H_b - H_t)$ 。分解

Pk $P_k$ ，按列进行求解。对于

Pk $P_k$ 的第

i $i$ 列，得到

P k + 1 (:, i) = arg min P k (:, i) λ 1 (| | P T k (:, i) Z w k | | 22 - | | P T k (:, i) Z b k | | 22 + η | | P T k (:, i) A Z k | | 22) + β i (P T k (:, i) P k (:, i) - 1) . (13)

$\begin{align} P_{k+1(:,i)} = \arg\min_{P_{k(:,i)}} \ & \lambda_1 \left( || P_{k(:,i)}^T Z_{wk} ||_2^2 - || P_{k(:,i)}^T Z_{bk} ||_2^2 + \eta || P_{k(:,i)}^T A Z_k||_2^2 \right) + \beta_i \left(P_{k(:,i)}^T P_{k(:,i)} - 1 \right). \tag{13} \end{align}$
其中

βi $\beta_i$ 对应的 Lagrange 乘子。通过求关于

Pk(:,i) $P_{k(:,i)}$ 的梯度等于 0，得到

- λ 1 (Z w k Z T w k - Z b k Z T b k + η A Z k Z T k A T) P k (:, i) = β i P k (:, i) . (14)

$\begin{equation} \tag{14} -\lambda_1 \left( Z_{wk}Z_{wk}^T - Z_{bk}Z_{bk}^T + \eta AZ_kZ_k^TA^T \right) P_{k(:,i)} = \beta_i P_{k(:,i)}. \end{equation}$
可以发现类似

Aμ=λμ $A\mu = \lambda \mu$ ，用特征值分解，求出

βi,Pk(:,i) $\beta_i, P_{k(:,i)}$ 分别是

−λ1(ZwkZTwk−ZbkZTbk+ηAZkZTkAT) $-\lambda_1 \left( Z_{wk}Z_{wk}^T - Z_{bk}Z_{bk}^T + \eta AZ_kZ_k^TA^T \right)$ 的第

i $i$ 个特征值和特征向量。

更新 $J$

J k + 1 = arg min J k | | J k | | * + tr (R T k (Z k - J k)) + μ k 2 | | Z k - J k | | 2 F = arg min J k 1 μ k | | J k | | * + 1 2 | | J k - (Z k + R k μ k) | | 2 F . (15)

$\begin{align} J_{k+1} &= \arg\min_{J_k} \ ||J_k||_* + \text{tr} \left( R_k^T (Z_k - J_k) \right) + \frac{\mu_k}{2} ||Z_k - J_k||_F^2 \\ &= \arg\min_{J_k} \ \frac{1}{\mu_k} ||J_k||_* + \frac{1}{2} ||J_k - (Z_k + \frac{R_k}{\mu_k})||_F^2 \ . \tag{15} \end{align}$
使用 singular value thresholding (SVT) 7 求解，

J∗=Zk+Rkμk $J^* = Z_k + \frac{R_k}{\mu_k}$ ，对其进行 SVD 分解，

(U,Σ,V)=svd(J∗) $(U,\Sigma,V) = \text{svd}(J^*)$ ，其中

Σ=diag({σi}1≤i≤r) $\Sigma = \text{diag}(\{\sigma_i\}_{1 \leq i \leq r})$ 。接着进行阈值操作，

Ω1/μk(Σ)=diag({σi−1/μk}+) $\Omega_{1/\mu_k}(\Sigma) = \text{diag}(\{ \sigma_i - 1/\mu_k \}_+)$ ，

+ $+$ 表示取大于等于 0 的部分；最后，得到

Jk+1=UΩ1/μk(Σ)VT $J_{k+1} = U \Omega_{1/\mu_k}(\Sigma)V^T$ 。

更新 $Z$

Z k + 1 = arg min Z k λ 1 (| | P T k + 1 A Z k (I - H b) | | 2 F - | | P T k + 1 A Z k (H b - H t) | | 2 F + η | | P T k + 1 A Z k | | 2 F) + tr (Y T k (X - A Z k - E k)) + tr (R T k (Z k - J k + 1)) + μ 2 (| | X - A Z k - E k | | 2 F + | | Z k - J k + 1 | | 2 F) . (16)

$\begin{align} Z_{k+1} = \arg\min_{Z_k} \ & \lambda_1 \left( || P_{k+1}^T A Z_k (I - H_b) ||_F^2 - || P_{k+1}^T A Z_k (H_b - H_t) ||_F^2 + \eta || P_{k+1}^T A Z_k ||_F^2 \right) \\ & + \text{tr} \left( Y_k^T( X - AZ_k -E_k) \right) + \text{tr} \left( R_k^T ( Z_k - J_{k+1}) \right) \tag{16} \\ & + \frac{\mu}{2} \left( ||X-AZ_k-E_k||_F^2 + ||Z_k-J_{k+1}||_F^2 \right) \ . \end{align}$
求对应关于

Zk $Z_k$ 的梯度等于 0，得到

Z k + 1 D / μ k + (A T P k + 1 P T k + 1 A) - 1 (I + A T A) Z k + 1 = (A T P k + 1 P T k + 1 A) - 1 K k + 1, D = 2 λ 1 [(1 + η) I - 2 H b + H t], K k + 1 = J k + 1 + A T (X - E k) + (A T Y k - R k) / μ k .

$\begin{align} & Z_{k+1} D / \mu_k + (A^T P_{k+1} P_{k+1}^T A)^{-1} (I + A^T A) Z_{k+1} = (A^T P_{k+1} P_{k+1}^T A)^{-1} K_{k+1}, \\ & D = 2 \lambda_1 \left[ (1+\eta)I - 2 H_b + H_t \right], \\ & K_{k+1} = J_{k+1} + A^T (X - E_k) + (A^T Y_k - R_k) / \mu_k \ . \end{align}$
推导过程见 Appendix，原文的公式

D $D$ 是错误的。此方程是关于

Zk+1 $Z_{k+1}$ 的标准 Sylvester 方程（

AX+XB=C $AX+XB=C$ ），可以很有效地求求解（Matlab 直接有现成函数可以使用）。

更新 $E$

E k + 1 = arg min E k λ 2 μ k | | E k | | 2, 1 + 1 2 | | E k - (X - A Z k + 1 + Y k / μ k) | | 2 F . (17)

$\begin{equation} \tag{17} E_{k+1} = \arg\min_{E_k} \ \frac{\lambda_2}{\mu_k} ||E_k||_{2,1} + \frac{1}{2} || E_k - (X - A Z_{k+1} + Y_k /\mu_k) ||_F^2 \ . \end{equation}$
为了求解

ℓ2,1 $\ell_{2,1}$ 范数，使用（等价于

Sα(x)=sign(x)⋅max{|x|−α,0} $S_\alpha(x) = \text{sign}(x) \cdot \max \{ |x| - \alpha, 0 \}$ ）

Φ E k + 1 (:, i) = X - A Z k + 1 + Y k / μ k, = {| | Φ i | | 2 - λ 2 / μ k | | Φ i | | 2 Φ i, 0, if | | Φ i | | 2 > λ 2 / μ k, otherwise . (18) (19)

$\begin{align} \Phi &= X - AZ_{k+1} + Y_k / \mu_k, \tag{18} \\ E_{k+1}(:,i) &= \begin{cases} \frac{|| \Phi_i ||_2 - \lambda_2 / \mu_k}{|| \Phi_i ||_2} \Phi_i , & \text{if} \ || \Phi_i ||_2 > \lambda_2 / \mu_k \ ,\\ 0, & \text{otherwise}. \end{cases} \tag{19} \end{align}$

Algorithm 1: SRRS 训练

Input: $X,\ \lambda_1,\ \lambda_2,\ \eta,\ Z=0,\ J=0,\ E_0=0,\ Y_0=0,\ R_0=0,$
$\qquad \mu_0=0.1,\ \mu_\max=10^{10},\ \rho=1.3,\ k=0,\ \epsilon=10^{-8}.$
1: While $not \ converged$ do
2: 更新 $P_{k+1}$ ， $k=1$ 时， $Z_k = I$ .
3: 更新 $J_{k+1}$ .
4: 更新 $Z_{k+1}$ .
5: 更新 $E_{k+1}$ .
6: 更新 $Y_{k+1} = Y_k +\mu_k (X -AZ_{k+1} - E_{k+1}), \ R_{k+1} = R_{k} + \mu_k (Z_{k+1} - J_{k+1})$ .
7: 更新 $\mu_{k+1} = \min(\rho\mu_k,\ \mu_\max)$ .
8: 检查收敛条件 $|| X-AZ_{k+1} - E_{k+1} ||_\infty < \epsilon, \ || Z_{k+1} - J_{k+1} ||_\infty < \epsilon$ .
9: $k = k+1$ .
10: End While
Output: $P_k,\ Z_k,\ E_k$ .

在得到最优解 $P^*,Z^*$ 之后，对训练样本和测试样本都进行投影，然后使用最近邻（NN）分类器测试样本的标签。

Algorithm 2: SRRS 测试

Input: 训练样本 $X$ ，训练标签 $L_X$ ，测试样本 $Y$ 。
1: 范数归一化每一个样本 $x_i = x_i / ||x_i||_2$ .
2: 用 Algorithm 1 得到最优解 $P^*,Z^*$ .
3: 分别投影 $X,Y$ ， $\tilde{X}=P^{*T}XZ^*, \ \tilde{Y} = P^{*T}Y$ .
4: 计算测试样本的标签 $L_Y$ ，使用最近邻分类器（原文并没有明确给出，简单提及一下）.

t = arg min k {Y ~ (:, i) - X ~ (:, k)} 1 \leq k \leq n, L Y (:, i) = L X (:, t) . (20)

$\begin{equation} \tag{20} t = \arg\min_k \ \left\{ \tilde{Y}(:,i) - \tilde{X}(:,k) \right\}_{1 \leq k \leq n} , \ L_Y(:,i) = L_X(:,t). \end{equation}$
Output:

LY $L_Y$ .

SRRS 的计算复杂度主要于 Algorithm 1 中。计算量最大的步骤是 Step 2-4，更新 $P,J$ 都需要 $O(n^3)$ ，因为它们都需要 SVD 分解（ $n$ 是训练样本的个数）。更新 $Z$ 中，求矩阵的逆需要 $O(n^3)$ ，求解 Sylvester 方程需要 $O(n^3 + m^3)$ （此文中 $A \in \mathbb{R}^{d \times m},\ A = X$ ，所以 $m = n$ ）。总之全部的计算复杂度是 $O(K(5n^3))$ ， $K$ 是迭代次数。在 Algorithm 1 和 2 中，直接采用 $X$ 作字典 $A$ ；当样本数不够时，这个方法就不适用。

在Algorithm 2 的 Step 3 中，将恢复的干净的训练样本 $XZ$ 投影到 $P$ 子空间中。理想的情况下，也应该将干净的测试样本投影到 $P$ 子空间中，再进行分类。但是，在实际情况下，往往做不到。此文中，为了体现 $P$ 对噪声数据的鲁棒性，直接将测试样本投影到 $P$ 子空间中。不过为了提升分类的性能，最好可以加上一些去噪技术，之后再进行投影。

实验

略

值得一提的是，此文虽然是 TOP 期刊发表，但是其中公式有好几处明显的错误。

Appendix

理解 $\text{tr}(S_W) = ||P^T AZ (I - H_b)||_F^2$

已知 $\tilde{X} = P^T AZ$ ，且根据原文陈述， $H_b \in \mathbb{R}^{n \times n}$ 是块对角矩阵，在每一个类别对应的对角块中，其值为该类别样本的数量的倒数 $1 / n_c$ （求每一个类别的平均值）。

H b = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 / n 1 ⋮ 1 / n 1 \dots 1 / n 1 \dots 1 / n 1 ⋮ 1 / n 1 1 / n 2 ⋮ 1 / n 2 \dots 1 / n 2 \dots 1 / n 2 ⋮ 1 / n 2 ⋱ 1 / n c ⋮ 1 / n c \dots 1 / n c \dots 1 / n c ⋮ 1 / n c ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (21)

$\begin{equation} \tag{21} H_b = \begin{bmatrix} 1/n_1 & \cdots & 1/n_1 \\ \vdots & 1/n_1 & \vdots \\ 1/n_1 & \cdots & 1/n_1 \\ & & & 1/n_2 & \cdots & 1/n_2 \\ & & & \vdots & 1/n_2 & \vdots \\ & && 1/n_2 & \cdots & 1/n_2 \\ & & & & & & \ddots \\ & & & & & & & 1/n_c & \cdots & 1/n_c \\ & & & & & & & \vdots & 1/n_c & \vdots \\ & & & & & & & 1/n_c & \cdots & 1/n_c \\ \end{bmatrix} \end{equation}$
我们有

tr (S W) = tr ⎛ ⎝ \sum i = 1 c \sum j = 1 n i (x ~ i j - m i) (x ~ i j - m i) T ⎞ ⎠ = \sum i = 1 c \sum j = 1 n i tr ((x ~ i j - m i) (x ~ i j - m i) T) = \sum i = 1 c \sum j = 1 n i (x ~ i j - m i) T (x ~ i j - m i) = \sum i = 1 c \sum j = 1 n i | | x ~ i j - m i | | 22 (22)

$\begin{align} \text{tr}(S_W) &= \text{tr} \left( \sum_{i=1}^{c} \sum_{j=1}^{n_i} (\tilde{x}_{ij} - m_i)(\tilde{x}_{ij} -m_i)^T \right) \\ &= \sum_{i=1}^{c} \sum_{j=1}^{n_i} \text{tr} \left((\tilde{x}_{ij} - m_i)(\tilde{x}_{ij} -m_i)^T \right) \\ &= \sum_{i=1}^{c} \sum_{j=1}^{n_i} (\tilde{x}_{ij} - m_i)^T(\tilde{x}_{ij} -m_i) \\ &= \sum_{i=1}^{c} \sum_{j=1}^{n_i} ||\tilde{x}_{ij} - m_i||_2^2 \tag{22} \end{align}$
接下来的步骤是转化成矩阵形式，（这个想法不容易想到，注意

x~ij, mi $\tilde{x}_{ij}, \ m_i$ 是

Rd×1 $\mathbb{R}^{d \times 1}$ 向量）

tr (S W) = | | [x ~ 11 - m 1 \dots x ~ 1 n 1 - m 1 x ~ 21 - m 2 \dots x ~ 2 n 2 - m 2 \dots x ~ c 1 - m c \dots x ~ c n c - m c] | | 2 F = | | [x ~ 11 \dots x ~ 1 n 1 x ~ 21 \dots x ~ 2 n 2 \dots x ~ c 1 \dots x ~ c n c] - [m 1 \dots m 1 m 2 \dots m 2 \dots m c \dots m c] | | 2 F = | | X ~ - [m 1 \dots m 1 m 2 \dots m 2 \dots m c \dots m c] | | 2 F . (23)

$\begin{align} & \text{tr}(S_W) \\ &= ||\begin{bmatrix} \tilde{x}_{11} -m_1 & \cdots & \tilde{x}_{1n_1} -m_1 & \tilde{x}_{21} -m_2 & \cdots & \tilde{x}_{2n_2} -m_2 & \cdots & \tilde{x}_{c1} -m_c & \cdots & \tilde{x}_{cn_c} -m_c \\ \end{bmatrix}||_F^2 \\ &= ||\ [\tilde{x}_{11} \cdots \tilde{x}_{1n_1} \ \tilde{x}_{21} \cdots \tilde{x}_{2n_2} \ \cdots \ \tilde{x}_{c1} \cdots \tilde{x}_{cn_c}] - [ m_1 \cdots m_1 \ m_2 \cdots m_2 \ \cdots \ m_c \cdots m_c ] \ ||_F^2 \\ &= ||\ \tilde{X} - [ m_1 \cdots m_1 \ m_2 \cdots m_2 \ \cdots \ m_c \cdots m_c ] \ ||_F^2 \ . \tag{23} \end{align}$
已知

mi=1ni∑nij=1x~ij $m_i = \frac{1}{n_i} \sum_{j=1}^{n_i} \tilde{x}_{ij}$ ，得到

[m1⋯m1 m2⋯m2 ⋯ mc⋯mc]=X~⋅Hb $[ m_1 \cdots m_1 \ m_2 \cdots m_2 \ \cdots \ m_c \cdots m_c ] = \tilde{X} \cdot H_b$ ，所以有

tr (S W) = | | X ~ - X ~ \cdot H b | | 2 F = | | P T A Z (I - H b) | | 2 F . (24)

$\begin{equation} \tag{24} \text{tr}(S_W) = || \tilde{X}- \tilde{X} \cdot H_b||_F^2 = ||P^T AZ (I - H_b)||_F^2 \ . \end{equation}$
验证：

X $X$ 有 2 类，每一类 2 个样本，

X = ⎡ ⎣ ⎢ ⎢ ⎢ 15913261014371115481216 ⎤ ⎦ ⎥ ⎥ ⎥, m 1 = ⎡ ⎣ ⎢ ⎢ ⎢ 1.5 5.5 9.5 13.5 ⎤ ⎦ ⎥ ⎥ ⎥, m 2 = ⎡ ⎣ ⎢ ⎢ ⎢ 3.5 7.5 11.5 15.5 ⎤ ⎦ ⎥ ⎥ ⎥, H b = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 1 / 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, X \cdot H b = ⎡ ⎣ ⎢ ⎢ ⎢ 1.5 5.5 9.5 13.5 1.5 5.5 9.5 13.5 3.5 7.5 11.5 15.5 3.5 7.5 11.5 15.5 ⎤ ⎦ ⎥ ⎥ ⎥ = [m 1, m 1, m 2, m 2] .

$\begin{equation} \begin{gathered} X = \begin{bmatrix} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \\ 13 & 14 & 15 & 16 \\ \end{bmatrix}, \ m_1 = \begin{bmatrix} 1.5 \\ 5.5 \\ 9.5 \\ 13.5 \\ \end{bmatrix} , \ m_2 = \begin{bmatrix} 3.5 \\ 7.5 \\ 11.5 \\ 15.5 \\ \end{bmatrix} , \ H_b = \begin{bmatrix} 1/2 & 1/2 \\ 1/2 & 1/2 \\ & & 1/2 & 1/2 \\ & & 1/2 & 1/2 \\ \end{bmatrix}, \\ X \cdot H_b = \begin{bmatrix} 1.5 & 1.5 & 3.5 & 3.5 \\ 5.5 & 5.5 & 7.5 & 7.5 \\ 9.5& 9.5 & 11.5 & 11.5 \\ 13.5 & 13.5 & 15.5 & 15.5 \\ \end{bmatrix} = [m_1, m_1, m_2, m_2]. \end{gathered} \end{equation}$

理解 $\text{tr}(S_B) = ||P^T AZ (H_b - H_t)||_F^2$

类似地，根据原文陈述， $H_t\in \mathbb{R}^{n \times n}$ 是元素全部为 $1/n$ 的矩阵（求所有样本的平均值），

H t = ⎡ ⎣ ⎢ ⎢ 1 / n ⋮ 1 / n \dots ⋱ \dots 1 / n ⋮ 1 / n ⎤ ⎦ ⎥ ⎥ . (25)

$\begin{equation} \tag{25} H_t = \begin{bmatrix} 1/n & \cdots & 1/n \\ \vdots & \ddots & \vdots \\ 1/n & \cdots & 1/n \\ \end{bmatrix}. \end{equation}$
根据文中的定义，我们有

tr (S B) = tr (\sum i = 1 c n i (m i - m) (m i - m) T) = \sum i = 1 c n i tr ((m i - m) (m i - m) T) = \sum i = 1 c n i (m i - m) T (m i - m) = \sum i = 1 c n i | | m i - m | | 22 = | | X ~ (H b - H t) | | 2 F = | | P T A Z (H b - H t) | | 2 F . (26)

$\begin{align} \text{tr}(S_B) &= \text{tr} \left( \sum_{i=1}^{c} n_i (m_i - m)(m_i - m)^T \right) \\ &= \sum_{i=1}^{c} n_i \, \text{tr} \left( (m_i - m)(m_i - m)^T \right) \\ &= \sum_{i=1}^{c} n_i (m_i - m)^T(m_i - m) \\ &= \sum_{i=1}^{c} n_i ||m_i - m||_2^2 \\ &= || \tilde{X} (H_b - H_t) ||_F^2 \\ &= ||P^T AZ (H_b - H_t)||_F^2 \ . \tag{26} \end{align}$
同样验证：

X $X$ 有 2 类，每一类 2 个样本，

X = ⎡ ⎣ ⎢ ⎢ ⎢ 15913261014371115481216 ⎤ ⎦ ⎥ ⎥ ⎥, m = ⎡ ⎣ ⎢ ⎢ ⎢ 2.5 6.5 10.5 14.5 ⎤ ⎦ ⎥ ⎥ ⎥, H t = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 1 / 4 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥, X \cdot H t = ⎡ ⎣ ⎢ ⎢ ⎢ 2.5 6.5 10.5 14.5 2.5 6.5 10.5 14.5 2.5 6.5 105 14.5 2.5 6.5 10.5 14.5 ⎤ ⎦ ⎥ ⎥ ⎥ = [m, m, m, m] .

$\begin{equation} \begin{gathered} X = \begin{bmatrix} 1 & 2 & 3 & 4 \\ 5 & 6 & 7 & 8 \\ 9 & 10 & 11 & 12 \\ 13 & 14 & 15 & 16 \\ \end{bmatrix}, \ m = \begin{bmatrix} 2.5 \\ 6.5 \\ 10.5 \\ 14.5 \\ \end{bmatrix} , \ H_t = \begin{bmatrix} 1/4 & 1/4 & 1/4 & 1/4 \\ 1/4 & 1/4 & 1/4 & 1/4 \\ 1/4 & 1/4 & 1/4 & 1/4 \\ 1/4 & 1/4 & 1/4 & 1/4 \\ \end{bmatrix}, \\ X \cdot H_t = \begin{bmatrix} 2.5 & 2.5 & 2.5 & 2.5 \\ 6.5 & 6.5 & 6.5 & 6.5 \\ 10.5& 10.5 & 105 & 10.5 \\ 14.5 & 14.5 & 14.5 & 14.5 \\ \end{bmatrix} = [m, m, m, m]. \end{gathered} \end{equation}$

证明 $\hat{f}(P,Z)$ 关于 $Z$ 是凸的

首先给出结论，当 $\eta >1$ 时，能保证 $\hat{f}(P,Z)$ 关于 $Z$ 是凸的。为了简化符号，定义 $T = P^T AZ$ ，所以转化 $\hat{f}(P,Z)$ 为 $f(T)$

f (T) = | | T (I - H b) | | 2 F - | | T (H b - H t) | | 2 F + η | | T | | 2 F . (27)

$\begin{equation} \tag{27} f(T) = || T (I - H_b) ||_F^2 - || T (H_b - H_t) ||_F^2 + \eta || T ||_F^2 \ . \end{equation}$
只要确保

f(T) $f(T)$ 的 Hessian 矩阵

∇2f(T) $\nabla^2 f(T)$ 是正定的

\partial \partial T T (\partial f ( T ) \partial T) = \partial \partial T T (2 T (I - H b) (I - H b) T - 2 T (H b - H t) (H b - H t) T + 2 η T) = 2 [(I - H b) (I - H b) T - (H b - H t) (H b - H t) T + η I] . (28)

$\begin{align} \frac{\partial }{\partial T^T} \left( \frac{\partial f(T)}{\partial T} \right) &= \frac{\partial }{\partial T^T} \left( 2T(I-H_b)(I-H_b)^T - 2T(H_b-H_t)(H_b-H_t)^T + 2 \eta \, T \right) \\ &= 2 \left[ (I-H_b)(I-H_b)^T - (H_b-H_t)(H_b-H_t)^T + \eta \, I \right]. \tag{28} \end{align}$
注意矩阵的特殊性，得到几个性质

HbHb=Hb, HtHt=Ht, HbHt=HtHb=Ht $H_b H_b = H_b,\ H_t H_t = H_t,\ H_b H_t = H_t H_b = H_t$ ，上式化简为

\nabla 2 f (T) = 2 [I - 2 H b + H b - (H b - 2 H t + H t) + η I] = 2 [(1 + η) I - 2 H b + H t] . (29)

$\begin{align} \nabla^2 f(T) &= 2 \left[ I - 2H_b + H_b - ( H_b - 2H_t + H_t) + \eta \, I \right] \\ &= 2 \left[ (1+\eta)I - 2 H_b + H_t \right]. \tag{29} \end{align}$
此文中引用一个定理 Weyl 不等式 8，如果

G $G$ 是一个

n×n $n \times n$ 的 Hermitian 矩阵，其有序的特征值如下

λ1(G)≥⋯≥λn(G) $\lambda_1(G) \geq \cdots \geq \lambda_n (G)$ 。如果

B,C $B,C$ 也是 Hermitian 矩阵，则有

λn(B)+λn(C)≤λn(B+C) $\lambda_n(B) + \lambda_n(C) \leq \lambda_n(B+C)$ 。这个定理说明，

B+C $B+C$ 的最小特征值大于或等于

B,C $B,C$ 的最小特征值之和。在上述证明里，要保证

∇2f(T) $\nabla^2 f(T)$ 是正定的，只要使其最小特征值大于 0，即确保求和的各个矩阵的最小特征值之和大于 0 。已知最小特征值

λmin(−Hb)=−1, λmin(Ht)=0 $\lambda_\min(-H_b) = -1, \ \lambda_\min(H_t) = 0$ ，所以只要保证

λ min (\nabla 2 f (T)) \geq 2 [(1 + η) + 2 (- 1) + 0] > 0. (30)

$\begin{equation} \tag{30} \lambda_\text{min} \left( \nabla^2 f(T) \right) \geq 2 [ (1 + \eta) + 2 (-1) + 0 ] > 0. \end{equation}$
显然，只要

η>1 $\eta > 1$ ，即可确保

f(T) $f(T)$ 关于

T $T$ 是凸的。回顾

T=PTAZ $T = P^TAZ$ ，

PTA $P^TA$ 是常数。所以，结论：在

η>1 $\eta > 1$ 时，

f(P,Z) $f(P,Z)$ 关于

Z $Z$ 是凸的。

推导 $Z$ 的更新公式

Z k + 1 = arg min Z k λ 1 (| | P T k + 1 A Z k (I - H b) | | 2 F - | | P T k + 1 A Z k (H b - H t) | | 2 F + η | | P T k + 1 A Z k | | 2 F) + tr (Y T k (X - A Z k - E k)) + tr (R T k (Z k - J k + 1)) + μ 2 (| | X - A Z k - E k | | 2 F + | | Z k - J k + 1 | | 2 F) . (31)

$\begin{align} Z_{k+1} = \arg\min_{Z_k} \ & \lambda_1 \left( || P_{k+1}^T A Z_k (I - H_b) ||_F^2 - || P_{k+1}^T A Z_k (H_b - H_t) ||_F^2 + \eta || P_{k+1}^T A Z_k ||_F^2 \right) \\ & + \text{tr} \left( Y_k^T( X - AZ_k -E_k) \right) + \text{tr} \left( R_k^T ( Z_k - J_{k+1}) \right) \\ & + \frac{\mu}{2} \left( ||X-AZ_k-E_k||_F^2 + ||Z_k-J_{k+1}||_F^2 \right) \ . \tag{31} \end{align}$
求对应关于

Zk $Z_k$ 的梯度等于 0，得到

λ 1 [2 A T P k + 1 P T k + 1 A Z k + 1 (I - H b) (I - H b) T - 2 A T P k + 1 P T k + 1 A Z k + 1 (H b - H t) (H b - H t) T + 2 η A T P k + 1 P T k + 1 A Z k + 1] - A T Y k + R k + μ k 2 [- 2 A T (X - A Z k + 1 - E k) + 2 (Z k + 1 - J k + 1)] = 0, 2 λ 1 A T P k + 1 P T k + 1 A Z k + 1 [(I - 2 H b + H b) - (H b - 2 H t + H t) + η I] - A T Y k + R k + μ k [A T (A Z k + 1 + E k - X) + Z k + 1 - J k + 1] = 0, 2 λ 1 A T P k + 1 P T k + 1 A Z k + 1 [(I + η) I - 2 H b + H t] + μ k (A T A + I) Z k + 1 = A T Y k - R k + μ k J k + 1 + μ k A T (X - E k), Z k + 1 2 λ 1 [(I + η) I - 2 H b + H t] + μ k (A T P k + 1 P T k + 1 A) - 1 (A T A + I) Z k + 1 = (A T P k + 1 P T k + 1 A) - 1 [A T Y k - R k + μ k J k + 1 + μ k A T (X - E k)], Z k + 1 D / μ k + (A T P k + 1 P T k + 1 A) - 1 (I + A T A) Z k + 1 = (A T P k + 1 P T k + 1 A) - 1 K k + 1, D = 2 λ 1 [(1 + η) I - 2 H b + H t], K k + 1 = J k + 1 + A T (X - E k) + (A T Y k - R k) / μ k .

$\begin{equation} \begin{gathered} \lambda_1 \left[ 2A^TP_{k+1}P_{k+1}^TA Z_{k+1} (I-H_b)(I-H_b)^T - 2A^TP_{k+1}P_{k+1}^TA Z_{k+1} (H_b-H_t)(H_b-H_t)^T + 2 \eta A^TP_{k+1}P_{k+1}^TA Z_{k+1} \right] \\ - A^TY_k + R_k + \frac{\mu_k}{2} \left[ -2 A^T(X-AZ_{k+1} - E_k) + 2(Z_{k+1} - J_{k+1}) \right] = 0, \\ 2 \lambda_1 A^TP_{k+1}P_{k+1}^TA Z_{k+1} \left[ (I - 2H_b + H_b) - (H_b - 2H_t + H_t) + \eta \, I \right] - A^T Y_k + R_k + \mu_k \left[ A^T(AZ_{k+1} + E_k - X) + Z_{k+1} - J_{k+1} \right] = 0, \\ 2 \lambda_1 A^TP_{k+1}P_{k+1}^TA Z_{k+1} \left[ (I + \eta) I - 2H_b + H_t \right] + \mu_k (A^TA + I) Z_{k+1} = A^T Y_k - R_k + \mu_k J_{k+1} + \mu_k A^T (X - E_k), \\ Z_{k+1} 2 \lambda_1 \left[ (I + \eta) I - 2H_b + H_t \right] + \mu_k (A^TP_{k+1}P_{k+1}^TA)^{-1} (A^TA + I) Z_{k+1} = (A^TP_{k+1}P_{k+1}^TA)^{-1} \left[ A^T Y_k - R_k + \mu_k J_{k+1} + \mu_k A^T (X - E_k) \right], \\ Z_{k+1} D / \mu_k + (A^T P_{k+1} P_{k+1}^T A)^{-1} (I + A^T A) Z_{k+1} = (A^T P_{k+1} P_{k+1}^T A)^{-1} K_{k+1}, \\ D = 2 \lambda_1 \left[ (1+\eta)I - 2 H_b + H_t \right], \\ K_{k+1} = J_{k+1} + A^T (X - E_k) + (A^T Y_k - R_k) / \mu_k \ . \end{gathered} \end{equation}$

Y. Pan, H. Lai, C. Liu, and S. Yan, “A divide-and-conquer method for scalable low-rank latent matrix pursuit,” in Proc. 26th IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2013, pp. 524–531. ↩
A. Talwalkar, L. Mackey, Y. Mu, S.-F. Chang, and M. I. Jordan,“Distributed low-rank subspace segmentation,” in Proc. 14th IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 3543–3550. ↩
P. N. Belhumeur, J. P. Hespanha, and D. Kriegman, “Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 19, no. 7, pp. 711–720,
Jul. 1997. ↩
Y.-F. Guo, S.-J. Li, J.-Y. Yang, T.-T. Shu, and L.-D. Wu, “A generalized Foley–Sammon transform based on generalized Fisher discriminant criterion and its application to face recognition,” Pattern Recognit. Lett., vol. 24, nos. 1–3, pp. 147–158, 2003. ↩
Z. Lin, R. Liu, and Z. Su, “Linearized alternating direction method with adaptive penalty for low-rank representation,” in Proc. 25th Annu. Conf. Adv. Neural Inf. Process. Syst., 2011, pp. 612–620. ↩
Chen, C., et al., The direct extension of ADMM for multi-block convex minimization problems is not necessarily convergent. Mathematical Programming, 2016. 155(1): p. 57-79. ↩
J.-F. Cai, E. J. Candès, and Z. Shen, “A singular value thresholding algorithm for matrix completion,” SIAM J. Optim., vol. 20, no. 4, pp. 1956–1982, 2010. ↩
J. K. Merikoski and R. Kumar, “Inequalities for spreads of matrix sums and products,” Appl. Math. E-Notes, vol. 4, pp. 150–159, Feb. 2014. ↩