About PCA

在处理高维度的数据时,比如数据个数为m,每个数据都是n维的,经常遇到的一个问题就是n*m(表示X这个矩阵维度是n*m)这个值非常大,这不仅对于存储,而且对于计算都是不小的麻烦,主成分分析法(PCA)可以有效的解决这个问题,主成分分析法的大概意思就是,让原来的每个特征经过线性组合生成新的几个特征,新的特征的个数,一般是远远小于原来特征的个数,这样我们处理每个数据的新特征就行,但是我们如何组成生成新的特征呢,或者说如何选择线性组合的系数,主成分分析的一个思想就是让这些数据集在新特征空间下的方差要尽量大。

假如现在要投影到一维空间,那么方差为

其中这里的数据已经标准化,均值为0,x(i)是一个列向量,u为一维空间的单位列向量。

经过化简:



因为数据已经进行了标准化,其中中间括号部分是X的协方差矩阵,两边同时乘以u以后:


可以知道lambda是协方差矩阵的特征值,我们要使lambda尽量大,也就是求最大的那个特征值,而当我们投影到K维空间时,我们要求的方差最大,我们可以在每一维上分别求“方差”,那么方差和最大等价于取协方差矩阵的前K大个特征值。

对于一个降维后的矩阵X’,可以通过

,

得到,其中括号中的分别是协方差矩阵前k个特征值所对应的特征向量。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值