基于超图谱的无监督特征选择
1. 引言
在处理高维数据时,识别出对分类和聚类有信息价值的较小特征子集至关重要。降维旨在减少考虑的变量数量,可分为特征提取和特征选择。特征提取通常将特征投影到低维且不同的特征空间,如核主成分分析(kernel PCA)、局部保持投影(LPP)和拉普拉斯特征映射(Laplacian eigenmap)。而特征选择则是在原始特征空间中识别最优特征子集,通过保留原始特征,提高了数据的可解释性,在许多实际应用中更受青睐,如人脸识别和文本挖掘。特征选择算法大致可分为两类:有监督特征选择和无监督特征选择。
有监督特征选择所需的标记数据可能稀缺,而无标记数据通常较为丰富。因此,开发能够利用这些数据的无监督特征选择算法具有明显的吸引力。无监督学习中的典型例子是基于图的谱学习算法,如拉普拉斯分数(Laplacian score)、SPEC、多簇特征选择(MCFS)和无监督判别特征选择(UDFS)。这些谱特征选择算法的思想是识别与样本相似性矩阵 $S$ 的前导特征向量对齐良好的特征,因为 $S$ 的前导特征向量包含样本分布结构的信息,并将相似样本分组到紧凑的簇中。
然而,上述基于图的谱特征选择方法存在两个局限性:
- 它们单独评估特征,因此无法处理冗余特征。冗余特征会不必要地增加维度,并在数据不足时恶化学习性能。
- 在许多情况下,关系模式的图表示可能导致大量信息丢失,因为现实世界中的对象及其特征往往表现出多种关系,而不仅仅是简单的成对关系,例如不同光照条件下面部的分类问题。
为了解决上述问题,我们将数据集表示为超图而不是图。超图表示允许顶点通过超边多重连接,因此可以捕获特征之间的多个或更高阶关系。
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



