76、基于超图谱的无监督特征选择

html8

于 2025-10-08 11:41:37 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：模式识别前沿探秘文章标签：超图谱无监督特征选择高维数据

本文链接：https://blog.youkuaiyun.com/html8/article/details/153680423

模式识别前沿探秘专栏收录该内容

89 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于超图谱的无监督特征选择

1. 引言

在处理高维数据时，识别出对分类和聚类有信息价值的较小特征子集至关重要。降维旨在减少考虑的变量数量，可分为特征提取和特征选择。特征提取通常将特征投影到低维且不同的特征空间，如核主成分分析（kernel PCA）、局部保持投影（LPP）和拉普拉斯特征映射（Laplacian eigenmap）。而特征选择则是在原始特征空间中识别最优特征子集，通过保留原始特征，提高了数据的可解释性，在许多实际应用中更受青睐，如人脸识别和文本挖掘。特征选择算法大致可分为两类：有监督特征选择和无监督特征选择。

有监督特征选择所需的标记数据可能稀缺，而无标记数据通常较为丰富。因此，开发能够利用这些数据的无监督特征选择算法具有明显的吸引力。无监督学习中的典型例子是基于图的谱学习算法，如拉普拉斯分数（Laplacian score）、SPEC、多簇特征选择（MCFS）和无监督判别特征选择（UDFS）。这些谱特征选择算法的思想是识别与样本相似性矩阵 $S$ 的前导特征向量对齐良好的特征，因为 $S$ 的前导特征向量包含样本分布结构的信息，并将相似样本分组到紧凑的簇中。

然而，上述基于图的谱特征选择方法存在两个局限性：
- 它们单独评估特征，因此无法处理冗余特征。冗余特征会不必要地增加维度，并在数据不足时恶化学习性能。
- 在许多情况下，关系模式的图表示可能导致大量信息丢失，因为现实世界中的对象及其特征往往表现出多种关系，而不仅仅是简单的成对关系，例如不同光照条件下面部的分类问题。

为了解决上述问题，我们将数据集表示为超图而不是图。超图表示允许顶点通过超边多重连接，因此可以捕获特征之间的多个或更高阶关系。