主成分分析(PCA)

主成分分析(PCA)是一种常用的降维算法,通过找到数据方差最大的方向进行投影,以保留原始信息。PCA算法流程包括数据归一化、计算协方差矩阵、特征值分解、选取最大特征值对应的特征向量构成转换矩阵,最终实现数据降维。该方法无监督、计算简单,但可能忽略低方差维度中的重要信息。

主成分分析(PCA)

假设我们一组二维数据点如图(1)所示,我们可以看出这两个维度具有很高的相似性,也就是说两个维度之间具有很高的冗余性,如果我们只想保留一个维度,那么该怎么选择才能尽可能多的保留原始数据的信息呢。我们先对数据进行归一化处理,得到的数据点如图(2)所示。然后将数据点映射到另一个新的空间,如图(3)所示,那么为了尽可能多的保留原始信息,我们需要将数据向x轴做一个投影。然后再将得到的一为向量投影回原始空间,得到了图(4),此时所有的数据点都在一条直线上,所以此时我们使用一维向量就可以表示这些数据点,也就是完成了降维。

图(1)

图(2)

图(3)

图(4)

在图(3)中,我们为什么会选择向x轴做投影呢,因为向x轴投影之后,数据点看起来和原来最数据点分布最相近,同时向x轴投影也使得数据点最分散,即投影后的数据的方差最大。

也就是说向投影之后方差最大的维度进行投影,投影后的数据能最大程度上的保留原始数据的信息。

图(5)

如图(5)所示,原本信号是一个一维向量,但是由于高斯噪声的存在,信号变成了一个二维向量,同时两个维度之间有着很高的冗余度。在这个二维向量中,信号占据了原始信息很大的一部分,而噪声只代表原始信息很小的一部分。又因为信号是高斯噪声,因此在噪声方向,数据的方差较小,而在信号方向,数据方差比较大。为了在降维的同时尽可能保留原始信息,所以我们应该向信号方向做投影,也就是选择向方差最大的方向做投影。

  • PCA算法的思想

PCA算法的思想减少冗余和剔除噪声,将原始n维特征映射到k维空间上,其中k<n,其中k是指一个全新的正交特征。为了在映射之后可以保留原始数据尽可能多的信息,我们希望原始数据映射到k维空间中,使其方差尽可能的大。

  • PCA算法的推导

假设原始数据为 m \times n 的归一化矩阵 X 。其中 m 为样本的维度。 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值