特征降维分无监督降维和有监督降维;我们常提的是只需要特征数据本身的无监督降维,依靠的是数据点本身的分布,方差等信息,无需用到数据样本的标签信息。
典型的无监督算法:(只需要特征就可以对特征降维)
PCA (Principal Component Analysis) / SVD (Singular Value Decomposition)
t-SNE (t-distributed Stochastic Neighbor Embedding)
UMAP (Uniform Manifold Approximation and Projection)
LLE (Locally Linear Embedding)
Isomap (Isometric Mapping)
Autoencoders (基本形式)
ICA (Independent Component Analysis)
有监督降维:
在降维过程中利用数据样本的类别标签信息,找到一个低维子空间,更有利于后续的任务
需要同时输入特征矩阵X和对应的标签向量Y
典型算法:
LDA:寻找的投影方向能够最大化类间散度与类内散度之比
NCA
PCA (无监督):如果你有一堆人脸图片,PCA会尝试找到那些能最好地概括所有人脸变化的“主脸”(特征向量),比如脸型、鼻子大小等,它不关心这些人脸属于谁。
LDA (有监督):如果你有一堆人脸图片,并且你知道每张图片属于哪个人(标签)。LDA会尝试找到那些能最好地区分不同人的人脸特征组合。比如,如果A和B的脸型很像,但眼睛差别很大,LDA可能会更强调眼睛的特征,即使脸型方差更大。PCA是利用最大化方差来实现无监督降维,而LDA则是在此基础上,加入了类别信息,其优化目标就变成了类间差异最大化和类内差异最小化。
PCA等无监督降维方法的目标是保留数据的最大方差,这些方差大的方向不一定是对分类最有用的方向。因此,在分类任务中,LDA通常比PCA更直接有效。
PCA主成分分析(识别数据中方差最大的方向,将数据投影到由主成分构成的新的、维度更低的子空间上。在降低数据维度的同时,尽可能保留多的原始信息)
将SVD应用于经过均值中心化的数据矩阵,并对结果进行特定解释的一种方法
今天时间比较仓促,每天再继续深入理解+代码执行。
848

被折叠的 条评论
为什么被折叠?



