PCA和LDA都可以看成是数据降维的一种方式。但是PCA是unsupervised,也就是说不需要知道sample对应的label,而LDA是supervised,需要知道每一个数据点对应的label。
1 主成分分析(PCA)
主成分分析(PCA)是一种多变量统计方法,它是最常用的降维方法之一,通过正交变换将一组可能存在相关性的变量数据转换为一组线性不相关的变量,转换后的变量被称为主成分
可以使用两种方法进行PCA,分别是特征分解或奇异值分解(SVD)。PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。
说说PCA的优缺点
优点
仅仅需要以方差衡量信息量,不受数据集以外的因素影响
各主成分之间正交,可消除原始数据成分间的相互影响的因素
计算方法简单,主要运算是特征值分解,易于实现
缺点
主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强
方差小的非主成分也可能含有对样本差异的重要信息,因此降维丢弃可能对后续数据处理有影响
PCA属于有损压缩。
PCA通过计算数据的协方差矩阵,进而对数据进行降维和特征提取。在数据处理和机器学习领域,主成分分析(PCA)是一种广泛使用的技术,旨在通过降维的方式,从高维数据中提取关键特征,同时尽可能保持原数据的主要信息。这一过程涉及到协方差矩阵的计算,它为理解数据的特征之间关系提供了基础。
PCA的基础在于理解协方差矩阵的重要性。一个数据集的协方差矩阵能够表达不同维度间的相关性,其中对角线上的元素代表各维度的方差,而其它元素则表示不同维度间的协方差。计算协方差矩阵通常包括以下步骤,首先对样本矩阵进行中心化处理,即每一维度减去该维度的均值;其次,用中心化后的样本矩阵乘以其转置;最后,除以样本数量减一以得到协方差矩阵。
PCA的实质是对协方差矩阵进行谱分解,从而找到数据中的主成分,即那些能最大程度解释数据变异性的方向。这些方向由协方差矩阵的特征值和特征向量确定,它们分别代表了成分的重要性和方向。特征向量构成的新坐标系是原始数据在该空间的投影,这样做可以最大化投影后方差,从而保留尽量
PCA与LDA:数据降维方法对比

最低0.47元/天 解锁文章
1396

被折叠的 条评论
为什么被折叠?



