1.简介
Principal component analysis (PCA) is a statistical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables called principal components.
从本质上来讲,主成分分析法是一种空间映射的方法,将在常规正交坐标系(我们看到的)的变量通过矩阵变换操作映射到另一个正交坐标系中的主元。做这个映射的目的是为了减少变量间的线性相关性。
2.作用
本来变量之间有线性相关性,现在都变成了相互独立。如果变量是作为分类的特征的话,那么主成分分析法起到了一种特征重建的作用;从最后的表示来看,主元是由原来的变量线性组合而成,原来的变量之间是线性相关的,而主元之间是相互独立的,直观上的可以通过主成分分析法进行聚类;当然,从主成分求解的过程来看,PCA还可以用来降维。
3.算法原理
1、协方差原理
样本X和样本Y的协方差(Covariance):
协方差为正时说明X和Y是正相关关系,协方差为负时X和Y是负相关关系,协方差为0时X和Y相互独立。Cov(X,X)就是X的方差(Variance)。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵),方阵的边长是Cn2。比如对于3维数据(x,y,z),计算它的协方差就是: