参考文献:基于子空间学习的数据表示方法研究_罗鹏
组稀疏和图正则化的判别性半非负矩阵分解算法(Group Sparsity and Graph Regularized Semi-Nonnegative Matrix Factorization with Discriminability, 简称GG-Semi-NMF-D)是一种结合了多个关键概念的矩阵分解技术
,用于学习数据的低维表示
,同时保留了数据的局部几何结构和判别性信息
。下面详细阐述这一算法的关键组成部分:
1. 半非负矩阵分解 (Semi-NMF)
半非负矩阵分解(Semi-NMF)是一种改进的非负矩阵分解
(NMF)方法,它放宽
了NMF中对数据矩阵X 和基矩阵
U的非负约束,只对编码矩阵V施加非负约束
。这样做的好处是,它不仅保留了NMF基于部分表示的优点,而且能够处理含有负数的数据矩阵,从而扩大了适用范围。
2. 图正则化
图正则化项是通过谱图理论和流形学习
概念引入的,用于保持数据点之间的局部几何结构
。通过构造一个 邻接矩阵W
来表示数据点之间的相似度或距离
,进而构建 图拉普拉斯矩阵L
,可以衡量低维表示的平滑性
。图正则化项定义如下:
R G = T r ( V L V T ) R_G = Tr(VLV^T) RG=Tr(VLVT)
其中,(V) 是编码矩阵
,(L) 是图拉普拉斯矩阵
,(Tr) 表示矩阵的迹
。(L) 由对角矩阵
(D)和邻接矩阵
(W)构造而成,其中(D)的对角元素
表示每个节点的度数。
3. 判别性约束
判别性约束用于挖掘数据中的判别信息
,即使得学习的低维表示能够区分不同类别的数据
。这通常是通过在编码矩阵
(V)上施加近似正交约束实现
的,以捕捉数据间的判别性关系
。判别性约束的加入有助于提高分类和聚类任务的性能。
4. 组稀疏性
组稀疏性是通过组Lasso惩罚项
引入的,它鼓励矩阵的某些组(或特征)完全为零,从而实现特征选择
。这有助于减少冗余特征,得到更简洁的表示。
综合模型
综合上述概念,GG-Semi-NMF-D算法的目标函数可以表示为:
J = ∥ X − U V T ∥ F 2 + α R G + β R S + γ R D J = \|X - UV^T\|_F^2 + \alpha R_G + \beta R_S + \gamma R_D J=∥X−UVT∥F2+αRG+βRS+γRD
其中:
- (X) 是
非负数据矩阵。
- (U) 和 (V) 分别是
基矩阵
和编码矩阵。
-
∥
X
−
U
V
T
∥
F
2
\|X - UV^T\|_F^2
∥X−UVT∥F2 是
重构误差项
,表示原始数据
(X)和分解后重建数据
之间的差异。 -
R
G
R_G
RG 是
图正则化项
,保持数据的局部几何结构。
-
R
S
R_S
RS 是
组稀疏性项
,实现特征选择
。 -
R
D
R_D
RD 是
判别性约束项
,保持数据的判别性信息。
-
α
,
β
,
γ
\alpha, \beta, \gamma
α,β,γ 是
调节各项权重的参数
。
通过交替优化U和V,可以最小化目标函数
,从而学习到既能保持数据几何结构,又具有判别性和稀疏性的低维表示。
在实际应用中,这种算法能够为高维数据提供更有效和更具语义的表示,适用于聚类、分类等机器学习任务。