机器学习笔记——12 主成分分析和因子分析
主成分分析(principal components analysis,PCA)是一种有比较完美的数学理论支持的方法,它广泛用于数据降维和图像识别等领域。因子分析(factor analysis,FA)是一种的数据模型,它可以处理一些数据量少但是数据维度又大的数据建模问题。本文将介绍PCA的数学原理,然后介绍FA的基本思想,并对FA中参数的估计进行一些介绍。
PCA的数学原理
PCA重点在于寻找一个投影方向,我们记之为uuu,该方向向量是归一化的,长度为一,即uTu=1u^Tu = 1uTu=1。理想上我们希望样本数据投影到该方向后,保留有较大的差异,即投影后的数据方差最大,亦即u=argMaxu∈Rn1m∑i=1m(uTx(i))2u = argMax _{u\in R^{n}}\frac{1}{m}\sum_{i = 1}^{m} (u^Tx^{(i)})^2u=argMaxu∈Rnm1i=1∑m(uTx(i))2进一步分析,如果我们记样本的协方差为Σ\SigmaΣ,那么我们要最大化的东西为