1.PCA的应用
1.降维
2.去除数据相关性,对数据特征进行抽取
2.主成分选择原则
(1)主成分是原来变量的线性组合;
(2)各主成分之间互不相关;
(3)主成分分析的实质就是找到一个正交变换,即有正交阵U,使得一个?维向量
对其做正交变换,满足Y的各个分量之间是不相关的(即协方差为0),而且?的第一个分量的方差是最大的,第二个次之……
3.主成分分析步骤
1.将原数据中心化
2.对中心化后的数据的协方差矩阵进行特征值分解
3.对特征值进行由大到小排序,选择前几个比较大的特征值对应的特征向量对X进行投影变换,那么主成分
4.推导过程
假设数据已经中心化
1.正交投影矩阵:一个向量b想向某个已知空间A正交投影,那么其投影矩阵为 (证明不难可以自己证明一下)
2.SVD分解:
那么由上,原数据向主成分空间投影
(1)
(2)
PCA就是想找一个单位方向u,其中使得
在这个方向上正交投影的长度均值达到最大,换言之就是投影后散布最大,也就 是信息保留最多。
问题现在变成求 (3)
即 (4)
对 进行特征分解,
,将特征值从大到小分好 即
由于SVD的U也是特征分解得到,所以u可以看作
的线性组合
代入(4)式中 变为 (5)
(6)
即当时(4)式成立
当然如果你想使用PCA将原数据降为s维,那么同样的推导方式,你将得到
也就是使得
通过以上推导我们就明白了,PCA的算法步骤
1.将原数据中心化
2.对中心化后的数据的协方差矩阵进行特征值分解
3.对特征值进行由大到小排序,选择前几个比较大的特征值对应的特征向量对X进行投影变换,那么主成分
r就是你想降维到的维数。