主成分分析(PCA)
假设我们一组二维数据点如图(1)所示,我们可以看出这两个维度具有很高的相似性,也就是说两个维度之间具有很高的冗余性,如果我们只想保留一个维度,那么该怎么选择才能尽可能多的保留原始数据的信息呢。我们先对数据进行归一化处理,得到的数据点如图(2)所示。然后将数据点映射到另一个新的空间,如图(3)所示,那么为了尽可能多的保留原始信息,我们需要将数据向x轴做一个投影。然后再将得到的一为向量投影回原始空间,得到了图(4),此时所有的数据点都在一条直线上,所以此时我们使用一维向量就可以表示这些数据点,也就是完成了降维。

图(1)

图(2)

图(3)

图(4)
在图(3)中,我们为什么会选择向x轴做投影呢,因为向x轴投影之后,数据点看起来和原来最数据点分布最相近,同时向x轴投影也使得数据点最分散,即投影后的数据的方差最大。
也就是说向投影之后方差最大的维度进行投影,投影后的数据能最大程度上的保留原始数据的信息。

图(5)
如图(5)所示,原本信号是一个一维向量,但是由于高斯噪声的存在,信号变成了一个二维向量,同时两个维度之间有着很高的冗余度。在这个二维向量中,信号占据了原始信息很大的一部分,而噪声只代表原始信息很小的一部分。又因为信号是高斯噪声,因此在噪声方向,数据的方差较小,而在信号方向,数据方差比较大。为了在降维的同时尽可能保留原始信息,所以我们应该向信号方向做投影,也就是选择向方差最大的方向做投影。
- PCA算法的思想
PCA算法的思想减少冗余和剔除噪声,将原始n维特征映射到k维空间上,其中k<n,其中k是指一个全新的正交特征。为了在映射之后可以保留原始数据尽可能多的信息,我们希望原始数据映射到k维空间中,使其方差尽可能的大。
- PCA算法的推导
假设原始数据为
的归一化矩阵
。其中
为样本的维度。

主成分分析(PCA)是一种常用的降维算法,通过找到数据方差最大的方向进行投影,以保留原始信息。PCA算法流程包括数据归一化、计算协方差矩阵、特征值分解、选取最大特征值对应的特征向量构成转换矩阵,最终实现数据降维。该方法无监督、计算简单,但可能忽略低方差维度中的重要信息。
最低0.47元/天 解锁文章
46万+

被折叠的 条评论
为什么被折叠?



