用于癌症样本聚类和特征选择的超图鲁棒非负矩阵分解方法
在生物信息学领域,癌症样本的聚类和特征选择对于癌症的诊断、治疗和研究具有重要意义。非负矩阵分解(NMF)算法作为一种有效的数据降维方法,在该领域得到了广泛应用。然而,传统的NMF方法存在一些局限性,如对噪声和离群值敏感,忽略了数据的内在几何结构等。为了克服这些问题,研究人员提出了一种名为超图鲁棒非负矩阵分解(HRNMF)的新方法。
1. 背景与相关工作
在过去几年中,为了找到有用的基因,许多降维方法被提出。像局部线性嵌入(LLE)、非线性主成分分析(NPCA)、稀疏主成分分析(SPCA)和ISOMAP等都是传统的数据降维方法。后来,非负矩阵分解(NMF)被引入,它能确保在降维时矩阵元素为非负。
NMF可以将一个原始的非负矩阵分解为两个非负矩阵的乘积。目前,基于NMF的许多变体通过修改目标函数或约束条件得到了发展。为了减少真实数据中噪声和离群值的影响,Kong等人提出了使用L2,1 - 范数的鲁棒非负矩阵分解(L2,1 - NMF);He等人通过分别对高斯噪声和稀疏噪声进行建模,引入了稀疏正则化鲁棒非负矩阵分解(SRNMF)。此外,一些流形正则化理论也得到了扩展,如Maaten等人引入t - SNE来可视化高维数据,Cai等人提出图正则化非负矩阵分解(GNMF)来编码数据空间的几何信息,Zeng等人提出超图正则化非负矩阵分解(HNMF)用于图像聚类,Yu等人提出图正则化鲁棒非负矩阵分解(GrRNMF)。
然而,这些方法仍存在一些问题。一方面,大多数传统的NMF方法使用平方损失函数来最小化目标函数,对噪声和离群值敏感;另一方面,高维空间中存在的低维流形结构需要被保留。