主成分分析和因子分析是数据挖掘中常用的方法,帮助我们对原始数据有更好的理解,同时也可以实现降维等操作,为后续工作提供便利。
但是有一些博客的介绍中,其中数学推导的部分过多,没有很好地跟实际例子结合到一起,通俗易懂地解释这两个东西。我更想更需要直白的解释。
PCA
何谓主成分分析,其实大家通常意义说的那个借助于特征值和特征向量的PCA方法,应该叫做“基于方差最大化的特征主成分分析”。
真正的主成分分析,应该是所有能够对数据实现主要成分表示的方法的总的称谓。
因为,主成分分析的目标是:
其中, Xm∗n 表示 m 行
如何表示
先讲“基于方差最大化的特征主成分分析-PCA”,我们暂且还是这么叫它为PCA。
PCA一开始就没打算直接对数据怎么样,而是研究维度之间的关系,将维度简化,比如去掉相关性之类的,或者是去掉一些用处不大的维度。
假设样本矩阵去中心后,表示为Z。
如果从线性相关性入手研究的话,就必须要提到协方差矩阵
Cov(M,N)=E(M−M¯¯¯¯)(N−N¯¯¯)=1m∗∑mi=1(mi−Mi¯¯¯