PCA的目的是找到一个坐标系,使得数据只保留在一个维度时,信息损失最小(即避免投影上去,都集中在一个点)。
数据变换的概念:
下图这里左乘一个对角矩阵,相当于左乘了一个基底,实现对坐标轴的拉伸:
下图这里再左乘一个R矩阵,实现方向旋转:
数据处理流程图如下:
白数据的定义:
拉伸决定了方差最大的方向是横或纵。
旋转决定了方差最大的方向的角度。
立即推,我们要求的就是这个R矩阵。
协方差定义:
协方差矩阵:
如图所示:随着拉伸和旋转,协方差矩阵在不断的变化。
公式推导:
协方差矩阵的特征值和特征向量的定义:
假设C是二维矩阵,v是C的特征向量:
如上图所示:R矩阵(旋转角度矩阵)就是两个特征向量组合起来,第一列是特征向量,第二列也是特征向量。L矩阵是两个特征值组成的对角矩阵。