主成分分析(PrincipalComponent Analysis)
定义:
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫做主成分。
目的:
减小需要分析的指标同时尽量减少原指标包含的信息损失。是最常用的降维方法。
主成分:
加入有一些数据分布在三维空间中一个二维平面上,用自然坐标系x,y,z表示需要三个维度。如果将原坐标系旋转为x’,y’,z’使x’y’平面与二维平面重合,则数据表示只有两个维度了。加入数据在z’轴有很小的抖动,则认为这噪声可能是噪声,本来数据是有相关性的,噪声使得数据不完全相关,数据在z’轴上有很大相关性,可以认为数据在x’y’平面的投影已足够表示数据信息,构成了数据的主成分。PCA是将n维特征映射到k维,这k维是全新的正交特征,称为主成分。
在PCA之前,要先对数据中心化,即均值为0,个人认为这是为了方便表示,让所有数据构成的以原点为起点的向量组可以用两个不相关的正交向量表示。
操作方法:
1、数据中心化
2、求特征协方差矩阵
3、求协方差矩阵的特性值和特征向量
4、将特征值从大到小的顺序排列,选择其中最大的k个,然后将对应的k个特征向量分别做列向量组成特征向量矩阵
5、将样本点投影到特征向量上
推导:
假设xi是中心化后数据,PCA即使数据在第一主轴u1分布最开,因为数据均值为0,所以投影的绝对值和最大即方差最大。
设原始的都为列向量,u1取单位向量。