参考文献:基于子空间学习的数据表示方法研究_罗鹏

组稀疏和图正则化的判别性半非负矩阵分解算法(Group Sparsity and Graph Regularized Semi-Nonnegative Matrix Factorization with Discriminability, 简称GG-Semi-NMF-D)是一种结合了多个关键概念的矩阵分解技术用于学习数据的低维表示同时保留了数据的局部几何结构和判别性信息。下面详细阐述这一算法的关键组成部分:

1. 半非负矩阵分解 (Semi-NMF)

半非负矩阵分解(Semi-NMF)是一种改进的非负矩阵分解(NMF)方法,它放宽了NMF中对数据矩阵X 和基矩阵U的非负约束,只对编码矩阵V施加非负约束。这样做的好处是,它不仅保留了NMF基于部分表示的优点,而且能够处理含有负数的数据矩阵,从而扩大了适用范围。

2. 图正则化

图正则化项是通过谱图理论和流形学习概念引入的,用于保持数据点之间的局部几何结构。通过构造一个 邻接矩阵W 来表示数据点之间的相似度或距离,进而构建 图拉普拉斯矩阵L,可以衡量低维表示的平滑性。图正则化项定义如下:

组稀疏和图正则化的判别性半非负矩阵分解算法_数据

其中,(V) 是编码矩阵,(L) 是图拉普拉斯矩阵,(Tr) 表示矩阵的迹。(L) 由对角矩阵(D)和邻接矩阵(W)构造而成,其中(D)的对角元素表示每个节点的度数。

3. 判别性约束

判别性约束用于挖掘数据中的判别信息,即使得学习的低维表示能够区分不同类别的数据。这通常是通过在编码矩阵(V)上施加近似正交约束实现的,以捕捉数据间的判别性关系判别性约束的加入有助于提高分类和聚类任务的性能。

4. 组稀疏性

组稀疏性是通过组Lasso惩罚项引入的,它鼓励矩阵的某些组(或特征)完全为零,从而实现特征选择。这有助于减少冗余特征,得到更简洁的表示。

综合模型

综合上述概念,GG-Semi-NMF-D算法的目标函数可以表示为:

组稀疏和图正则化的判别性半非负矩阵分解算法_线性代数_02

其中:

  • (X) 是非负数据矩阵。
  • (U) 和 (V) 分别是基矩阵编码矩阵。
  • 组稀疏和图正则化的判别性半非负矩阵分解算法_算法_03重构误差项,表示原始数据(X)和分解后重建数据之间的差异。
  • 组稀疏和图正则化的判别性半非负矩阵分解算法_数据_04图正则化项,保持数据的局部几何结构。
  • 组稀疏和图正则化的判别性半非负矩阵分解算法_正则化_05组稀疏性项,实现特征选择
  • 组稀疏和图正则化的判别性半非负矩阵分解算法_数据_06判别性约束项,保持数据的判别性信息。
  • 组稀疏和图正则化的判别性半非负矩阵分解算法_线性代数_07调节各项权重的参数

通过交替优化U和V,可以最小化目标函数,从而学习到既能保持数据几何结构,又具有判别性和稀疏性的低维表示。

在实际应用中,这种算法能够为高维数据提供更有效和更具语义的表示,适用于聚类、分类等机器学习任务。