提升线性图嵌入用于降维
1. 引言
降维是许多科学领域的基本问题,在统计模式识别、计算机视觉和机器学习等广泛领域中,它正成为一个日益活跃的话题。降维的根本目标是为样本寻找有意义的低维表示,以便保留高维数据中大部分的“内在信息”。实际上,观测样本的内在维度通常较低。例如,风格和旋转各异的手写数字图像可能位于嵌入高维空间的低维流形上。借助数据的低维紧凑表征,可以有效地执行后续任务,如可视化和分类。重要的是,对于模式识别任务,降维可以有效规避“维度灾难”,提取特征,消除噪声,并减轻计算和存储需求。
在文献中,已经提出了许多有用的无监督或有监督降维方法。其中,主成分分析(PCA)和线性判别分析(LDA)是两种最经典的线性学习方法。PCA,也称为Karhunen - Loève变换,通过使用一组具有最大方差的相互正交基,为数据点寻找低维表达性嵌入。与无监督的PCA不同,有监督的LDA产生一种判别性嵌入,它最大化类间散布与类内散布的比率。
当数据点位于高维输入空间的线性子空间上或其附近时,PCA和LDA相对简单且有效地找到有意义的结构。换句话说,如果数据点呈现非线性表达,它们可能无法发现数据集的潜在结构。为了探索非线性结构,一种常见的方法是采用所谓的“核技巧”。基于核的线性原型方法的基本思想是在特征空间F中执行线性算法,该特征空间通常由将输入数据点转换到F的非线性映射φ诱导。F的维度通常更高,甚至可能是无限的;但是,通过核函数,φ的实现是隐式的。基于核的方法的动机是,φ映射后的数据在F中可能具有线性结构,因此线性方法可以很好地工作。然而,对所有数据点应用一个通用函数并不一定能保证产生线性结构。著名的核方法包括核主成分分析(KPCA)、广义判别分析(GDA)和核独立成分分析(KICA),它们广
超级会员免费看
订阅专栏 解锁全文
887

被折叠的 条评论
为什么被折叠?



