Li, S. and Y. Fu, Learning Robust and Discriminative Subspace With Low-Rank Constraints. IEEE Transactions on Neural Networks and Learning Systems, 2016. 27(11): p. 2160-2173.
本文是这篇 Trans. on NNLS 期刊论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。
摘要: 此文目标是学习健壮的、有区分的子空间,从噪声数据中。子空间学习大量用于提取有辨别力的特征,用于分类。此文提出的一个由判别力的子空间学习方法 supervised regularization-based robust subspace (SRRS) 方法,结合了 low-rank 约束。SRRS 找出噪声数据的 low-rank 表示,同时从恢复的数据中学习出有判别的子空间。监督约束函数使用了标签信息,增强了子空间的区分度。此方法是一个带约束的 rank 最小化问题,设计采用増广 Lagrange 乘子法解决。强调,此文学习了一个低维的子空间,并显示地结合了监督信息。
1 简介
简短地提及了多种子空间学习的方法,PCA,LDA,LPPs,NPE,LSDA,DLA。其基本思想是找到一个低维的投影,满足某些性质。PCA 是非监督的,使得投影后的样本的方差最大化,而 LPP 和 NPE 保留了样本的局部关系。有了类别标签之后,有监督的方法适合于分类。LDA 旨在找到一个投影,同时使样本的类间差异最大,而类内的差异最小。它提取了有判别性的特征用于分类。这些方法在干净的数据上是效果很理想,但是当有一定的噪声和变化之后,其效果就变差了。
Sparse representation (SR) 稀疏表达是经典的,被用于处理噪声数据的问题。其一些方法没有考虑到数据的全局结构,它们对噪声不鲁棒,而且不能够提取出干净的数据。
Low-rank 模型是 SR 的扩展,最近被关注,可以恢复出隐含的数据结构。当数据只属于一个类别时, RPCA 就通过最小化矩阵的秩,恢复出原始的数据。其变形有 LRR 和 Latent LRR 。low-rank 模型通常有很大的计算负担,一个分而治之 (divide and conquer)的思想 1 2,使它们能扩展到大数据集。
目前,很少有方法在 low-rank 学习中使用标签信息;传统的子空间学习方法有假设数据的分布,对一些噪声数据很敏感。此文平衡了监督子空间学习和 low-rank 模型用于分类的优点。
此文的主要贡献有:
此文找出一个判别性的、强健的子空间,对噪声、姿势、光照变化不敏感,用于降维和分类。
提出的 supervised regularization-based robust subspace (SRRS) 方法,从噪声的数据中学习到 low-rank representation,同时从干净的数据里学习一个判别性的子空间。
为了提升分类的性能,自然加入了类别的标签信息,于目标函数的监督约束中。
2 相关工作
略
3 SRRS
3.1 模型构建
X
表示属于
其中 Z∈Rm×n 是系数。为了找出一个鲁棒的子空间,首先定义投影的低维的样本 X~=PTX=PTAZ 。接着,依次结合低秩约束和监督约束来学习投影 P 。已知
因为标签信息对于分类是非常重要的,此文设计了一个监督约束项
f(P,Z)
基于 Fisher criterion 3,
f(P,Z)=[tr(SB(PTAZ))/tr(SW(PTAZ))]
,其中
tr(⋅)
是迹函数,
SB(⋅), SW(⋅)
分别是类间散度和类内散度,
其中 mi 是样本 X~ 中第 i 类的均值,
其中,参数 λ1 平衡上述两项的作用。
但是上述问题很难直接求解,因为
rank(⋅)
是非凸的。于是核范数(矩阵的奇异值之和)用于代替它,问题变成了
此文也注意到, f¯(P,Z) 关于 Z 也是非凸的,所以可以加入一个额外的项,保证凸性
此文将上式转化为矩阵形式,(Appendix 理论上证明 f^(P,Z) 关于 Z 的凸性)
其中 η 是权衡参数, ||⋅||2F 是 Frobenius 范数, I∈Rn×n 是单位矩阵, Hb,Ht 是两个常系数矩阵。具体地,当 xi,xj 属于同一类别时, Hb(i,j)=(1/nc) , nc 是一个类别中样本的个数;否则,当 xi,xj 不属于同一类别时, Hb(i,j)=0 。而 Ht(i,j)=(1/n) 。现在监督约束项 f^(P,Z) 是关于 Z 凸的。
为了保证子空间的投影是正交的,
此目标函数关于 P 还不是凸的,因为正交约束
3.2 优化算法
此文采用经典的増广 Lagrange 乘子法 (inexact ALM algorithm) 5。为了求解方便,加入一个松弛变量 Z=J ,原问题转化为
将其约束加入目标函数中,得到
其中, μ>0 是惩罚项系数, Y∈Rd×n,R∈Rm×n 是 Lagrange 乘子矩阵,矩阵内积 <A,B>=tr(ATB) 。接下来是交替更新变量, P→J,Z,E→Y,R 。虽然 3 个或更多变量情况的増广 Lagrange 乘子法的收敛性没有被证明 6 。
更新 P
简化公式,定义 Zwk=AZk(I−Hb), Zbk=AZk(Hb−Ht) 。分解 Pk ,按列进行求解。对于 Pk 的第 i 列,得到
其中 βi 对应的 Lagrange 乘子。通过求关于 Pk(:,i) 的梯度等于 0,得到
可以发现类似 Aμ=λμ ,用特征值分解,求出 βi,Pk(:,i) 分别是 −λ1(ZwkZTwk−ZbkZTbk+ηAZkZTkAT) 的第 i 个特征值和特征向量。
更新 J
使用 singular value thresholding (SVT) 7 求解, J∗=Zk+Rkμk ,对其进行 SVD 分解, (U,Σ,V)=svd(J∗) ,其中 Σ=diag({σi}1≤i≤r) 。接着进行阈值操作, Ω1/μk(Σ)=diag({σi−1/μk}+) , + 表示取大于等于 0 的部分;最后,得到
更新 Z
求对应关于 Zk 的梯度等于 0,得到
推导过程见 Appendix,原文的公式 D 是错误的。此方程是关于
更新 E
为了求解 ℓ2,1 范数,使用(等价于 Sα(x)=sign(x)⋅max{|x|−α,0} )
Algorithm 1: SRRS 训练
Input:
X, λ1, λ2, η, Z=0, J=0, E0=0, Y0=0, R0=0,
μ0=0.1, μmax=1010, ρ=1.3, k=0, ϵ=10−8.
1: While
not converged
do
2: 更新
Pk+1
,
k=1
时,
Zk=I
.
3: 更新
Jk+1
.
4: 更新
Zk+1
.
5: 更新
Ek+1
.
6: 更新
Yk+1=Yk+μk(X−AZk+1−Ek+1), Rk+1=Rk+μk(Zk+1−Jk+1)
.
7: 更新
μk+1=min(ρμk, μmax)
.
8: 检查收敛条件
||X−AZk+1−Ek+1||∞<ϵ, ||Zk+1−Jk+1||∞<ϵ
.
9:
k=k+1
.
10: End While
Output:
Pk, Zk, Ek
.
在得到最优解 P∗,Z∗ 之后,对训练样本和测试样本都进行投影,然后使用最近邻(NN)分类器测试样本的标签。
Algorithm 2: SRRS 测试
Input: 训练样本
X
,训练标签
1: 范数归一化每一个样本
2: 用 Algorithm 1 得到最优解
P∗,Z∗
.
3: 分别投影
X,Y
,
X~=P∗TXZ∗, Y~=P∗TY
.
4: 计算测试样本的标签
LY
,使用最近邻分类器 (原文并没有明确给出,简单提及一下).
Output: LY .
SRRS 的计算复杂度主要于 Algorithm 1 中。计算量最大的步骤是 Step 2-4,更新
P,J
都需要
O(n3)
,因为它们都需要 SVD 分解(
n
是训练样本的个数)。更新
在Algorithm 2 的 Step 3 中,将恢复的干净的训练样本
实验
略
值得一提的是,此文虽然是 TOP 期刊发表,但是其中公式有好几处明显的错误。
Appendix
理解 tr(SW)=||PTAZ(I−Hb)||2F
已知
X~=PTAZ
,且根据原文陈述,
Hb∈Rn×n
是块对角矩阵,在每一个类别对应的对角块中,其值为该类别样本的数量的倒数
1/nc
(求每一个类别的平均值)。
我们有
接下来的步骤是转化成矩阵形式,(这个想法不容易想到,注意 x~ij, mi 是 Rd×1 向量)
已知 mi=1ni∑nij=1x~ij ,得到 [m1⋯m1 m2⋯m2 ⋯ mc⋯mc]=X~⋅Hb ,所以有
验证: X 有 2 类,每一类 2 个样本,
理解 tr(SB)=||PTAZ(Hb−Ht)||2F
类似地,根据原文陈述,
Ht∈Rn×n
是元素全部为
1/n
的矩阵(求所有样本的平均值),
根据文中的定义,我们有
同样验证: X 有 2 类,每一类 2 个样本,
证明 f^(P,Z) 关于 Z 是凸的
首先给出结论,当
只要确保 f(T) 的 Hessian 矩阵 ∇2f(T) 是正定的
注意矩阵的特殊性,得到几个性质 HbHb=Hb, HtHt=Ht, HbHt=HtHb=Ht ,上式化简为
此文中引用一个定理 Weyl 不等式 8,如果 G 是一个
显然,只要 η>1 ,即可确保 f(T) 关于 T 是凸的。回顾
推导 Z 的更新公式
求对应关于 Zk 的梯度等于 0,得到
- Y. Pan, H. Lai, C. Liu, and S. Yan, “A divide-and-conquer method for scalable low-rank latent matrix pursuit,” in Proc. 26th IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2013, pp. 524–531. ↩
- A. Talwalkar, L. Mackey, Y. Mu, S.-F. Chang, and M. I. Jordan,“Distributed low-rank subspace segmentation,” in Proc. 14th IEEE Int. Conf. Comput. Vis., Dec. 2013, pp. 3543–3550. ↩
- P. N. Belhumeur, J. P. Hespanha, and D. Kriegman, “Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 19, no. 7, pp. 711–720,
Jul. 1997. ↩ - Y.-F. Guo, S.-J. Li, J.-Y. Yang, T.-T. Shu, and L.-D. Wu, “A generalized Foley–Sammon transform based on generalized Fisher discriminant criterion and its application to face recognition,” Pattern Recognit. Lett., vol. 24, nos. 1–3, pp. 147–158, 2003. ↩
- Z. Lin, R. Liu, and Z. Su, “Linearized alternating direction method with adaptive penalty for low-rank representation,” in Proc. 25th Annu. Conf. Adv. Neural Inf. Process. Syst., 2011, pp. 612–620. ↩
- Chen, C., et al., The direct extension of ADMM for multi-block convex minimization problems is not necessarily convergent. Mathematical Programming, 2016. 155(1): p. 57-79. ↩
- J.-F. Cai, E. J. Candès, and Z. Shen, “A singular value thresholding algorithm for matrix completion,” SIAM J. Optim., vol. 20, no. 4, pp. 1956–1982, 2010. ↩
- J. K. Merikoski and R. Kumar, “Inequalities for spreads of matrix sums and products,” Appl. Math. E-Notes, vol. 4, pp. 150–159, Feb. 2014. ↩