主成分分析: Principal Component Analysis (PCA)
PCA的本质就是找一些相互正交的投影方向的方差。计算原始数据在这些正交基上投影的方差越大,则说明在对应正交基上的信息量越多。
原始数据协方差矩阵的特征值越大,对应的方差越大,在对应的特征向量上投影的信息量就越大,就是主成分。
特征值小,说明数据在这些特征向量上投影的信息量很小,则这数据在总体中的影响很小,可以将小特征值对应方向的数据删除,从而达到了降维的目的。
所以,主成分分析主要是为了寻找总体中,占比例比较少的成分,删除。达到降维和数据清洗的目的