主成分分析与因子分析-原理及python实现

主成分分析与因子分析在数据降维中的应用

最新推荐文章于 2024-12-14 12:49:37 发布

原创

最新推荐文章于 2024-12-14 12:49:37 发布 · 1.8k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #数据分析 #机器学习 #python

本文详细介绍了主成分分析(PCA)和因子分析(FA)这两种常用的数据降维方法。PCA旨在通过保留原始数据的主要特征来降低数据的维度，而FA则用于发现隐藏在多个变量背后的影响因子。在PCA中，通过最大化保留原始数据信息的特征向量来实现降维，而FA则通过对相关变量的因子分解来寻找潜在的结构。两者在实际应用中，如计量经济学等领域，都有广泛的应用。

下面两种算法一般都需标准化消除量纲影响

主成分分析(PCA)

目的

数据降维，将n维数据降为n’维数据。原数据 $X:n\times m,sample\,point:(x_1,...,x_n)^T,base:\lbrace w_1,...,w_n\rbrace$

转换到n‘维空间中， $x^{(i)}\rightarrow z^{(i)}=(z_i^{(i)},...,z_{n'}^{(i)})^T$ 对应n’维空间标准正交基: $w'=\lbrace \hat w'_1,...,\hat w'_{n'}\rbrace=W:n\times n'$

有: $W^Tx^{(i)}=z^{(i)}$ ,n’维空间中数据还原到n维空间中有 $Wz^{(i)}=\bar x^{(i)}$

caution: $W^TW=E,WW^T\neq E,W^TX=Z$

优化函数

使得降维后的数据与原数据距离和最小(尽可能维持原来位置，保持尽可能多的数据)
$\sum_{i=1}^m ||\bar x^{(i)}-x^{(i)}||_2^2\\ =\sum_{i=1}^m ||Wz^{(i)}-x^{(i)}||_2^2\\ =\sum_{i=1}^m (Wz^{(i)})^T(Wz^{(i)})-2\sum_{i=1}^m (Wz^{(i)})^Tx^{(i)}+\sum_{i=1}^m x^{(i)T}x^{(i)}\\ =-\sum_{i=1}^m z^{(i)T}z^{(i)}+\sum_{i=1}^,x^{(i)T}x^{(i)} =-tr(X^TWW^TX+X^TX)\\ min \sum_{i=1}^m ||\bar x^{(i)}-x^{(i)}||_2^2 \Leftrightarrow argmax\,tr(X^TWW^TX),s.t. W^TW=E$