pca 的理解

本文深入浅出地介绍了主成分分析(PCA)的基本概念及其在数据降维和去噪中的应用。通过直观的例子解释了PCA如何寻找数据的主要成分,并通过数学公式详细推导了PCA的具体实现过程。

前两天转了一篇leftnoeasy的pca代码,总觉得写的不够详细,今天自己再写写


pca 要叫主成分分析,顾名思义就是把主成份给找了出来。主成份的表现形式就是主成份之间的方差最小,也就是说数据在主成份方向投影后误差最小。

比如说一维的数据

红色的线就是所有蓝点的主成份方向,蓝点投影到红线上误差最小,方差越大

至于想leftnoeasy说所的,维度的数据之间的方差最大。则意味着两个维度之间越独立,例如


点投射到红线上的相关性明显要比投射到蓝线上的相关性要小。因此这里要重点说一下,pca的目的是维度之间方差最小,维度之类方差最大,(怎么听着在说lda了,汗)

所以,我们用pca就是为了找到一组最能够表现特征的向量空间,降维、去噪

下面来详细推导一下公式:

设有n个样本,每个样本的特征是p维,那么生成一个矩阵 X(n,p),每一行为一个样本,一共n行。 假设我们需要降到 q维。那么我们就需要找到q个维度方向(是X投影到该维度的方差最大)。我们知道矩阵的点投影到某个向量上 为A*u /|A||u|, u为被投影的向量.求方差的话|A||u|可以选择性的忽略。

到这一步了就可以引入特征值的作用了,Ax=lambda*x 。特征向量本来就是用来表示特征的方向。因此,我们直接去求出特征向量。具体推到思路leftnoeasy的那篇转载写的挺清楚了。特征向量的个数毫无悬念是p个,每个特征映射到该特征向量上是一个实数。选前q个特征映射实数,就是一组新的特征。







评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值