主成分分析：降维神器，最小误差与最大方差的数学解析-优快云博客

本文链接：https://blog.youkuaiyun.com/NelsonCheung/article/details/115773408

动机

许多类型的数据维度比较大，导致了计算时间复杂度高。
许多高维数据常常聚集在一个低维空间中，例如三维平面的点位于同一个平面上。

我们希望找到数据的一些主方向，而主方向的数量是远远小于数据的维度的。使用这些主方向就可以近似地表示原始数据，从而能够达到降维的目的。这种分析方法被称为主成分分析方法(Principal components analysis)。

最小近似误差

假设我们找到一组在高维空间中的向量集 $,uM}\{u_1,u_2,\cdots,u_M\}$ ，这些向量是单位正交的，即
$u_i\cdot u_j=u_i^Tu_j=\begin{cases} 0,\ i\ne j\\ 1,\ i=j \end{cases}$
若我们令
$\widetilde{x}=a_1u_1+a_2u_2+\cdots+a_Mu_M$
且有
$a_i=u_i^Tx$
那么 $x~\widetilde{x}$ 就是 $x$ 在空间 $,uM}span\{u_1,u_2,\cdots,u_M\}$ 上的投影。

我们希望的向量集 $,uM}\{u_1,u_2,\cdots,u_M\}$ 是表示的 $x~\widetilde{x}$ 和 $x$ 尽可能地接近，表示的误差如下所示。
$E=\frac{1}{N}\sum_{n=1}^N||(x^{(n)}-\bar{x})-\widetilde{x}^{(n)}||^2$
$x~\widetilde{x}$ 的系数由下面公式给出
$a_i=u_i^T(x^{(n)}-\bar x)$
上式可化简为
$E=\frac{1}{N}\sum_{n=1}^N||x^{(n)}-\bar x||^2-\sum_{i=1}^Mu_i^TSu_i\\ S=\frac{1}{N}\sum_{n=1}^N(x^{(n)}-\bar x)(x^{(n)}-\bar x)^T$
此时，最小化 $E$ 等价于
$\max_{u_1,u_2,\cdots,u_M}\sum_{i=1}^Mu_i^TSu_i\\ s.t.:\ u_i^Tu_j=\begin{cases} 0,\ i\ne j\\ 1,\ i=j \end{cases}$
可以证明，求解上面的优化问题等价于找 $S$ 的最大的M个特征值对应的特征向量。

对于 $D×DD\times D$ 的矩阵 $S$ ，由于 $S=XX^T$ ，所以 $S$ 必有 $D$ 个特征值，并且可以分解为
$S=U\Lambda U^T$
其中， $U$ 包含 $S$ 所有的特征向量， $Λ\Lambda$ 是一个对角矩阵。

最大方差

从另外一种观点来看，我们希望找到一组向量集 $,uM}span\{u_1,u_2,\cdots,u_M\}$ ，使得数据 ${x^{(n)}\}_{n=1}^N$ 在上面的方差最大，最大化方差意味着尽可能地保存原始数据的信息。

对于第1个方向 $u_1$ ，方差为
$\begin{aligned} var &=\frac{1}{N}\sum_{n=1}^N(u_1^T(x^{(n)}-\bar x))^2\\ &=u_1^T\frac{1}{N}\sum_{n=1}^N(x^{(n)}-\bar x)(x^{(n)}-\bar x)^Tu_1\\ &=u_1^TSu_1 \end{aligned}$
优化的问题为
$max_{u_1}\ var\\ s.t.:\ u_1^Tu_1=1$
此时， $u_1$ 为 $S$ 最大的特征值对应的特征向量。

对第2个方向，优化的问题为
$max_{u_2}\ var=u_2^TSu_2\\ s.t.:\ u_2^Tu_2=1,\ u_1^Tu_2=0$
此时， $u_2$ 为 $S$ 第2大的特征值对应的特征向量。

可以发现，最大方差的观点和最小近似误差的观点得到的结果是相同的，即主方向为协方差矩阵 $S$ 中特征值最大的那些特征向量。

SVD分解

对于一个 $M×NM\times N$ 的矩阵 $A$ ，它总可以被分解为
$A=U\Sigma V^T$
其中， $U$ 是矩阵 $AA^T$ 的特征向量组成的， $V$ 是 $A^TA$ 的特征向量组成的， $Σ\Sigma$ 中只有对角线上的元素非0，这些非0元素也被称为奇异值。

令
$\widetilde{X}=[x^{(1)}-\bar x\ x^{(2)}-\bar x\ \cdots\ x^{(N)}-\bar x]$
此时有
$\widetilde{X}\widetilde{X}^T=N\cdot S$
对 $X~\widetilde{X}$ 做奇异值分解得到的 $U$ 矩阵即为 $S$ 的特征向量。