机器学习—PCA

最新推荐文章于 2025-06-03 20:27:29 发布

原创最新推荐文章于 2025-06-03 20:27:29 发布 · 497 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#北京工业大学赵亮 #PCA

机器学习专栏收录该内容

19 篇文章

订阅专栏

文章目录

PCA
- 基于最大投影方差
- 基于最小投影距离
核化PCA
LDA

本文将记录有关PCA降维的内容。
当样本维度过高但是数据集数量较小时，在训练模型时很容易陷入过拟合，处理过拟合可以采用正则化、增加数据量、降低数据维度。在降低数据维度可以采用的方法有特征选择、线性降维（PCA）、非线性降维（流形）

PCA

数据集共有N个样本， $x_i\in R^P$ ，降维之后的样本 $\hat{x}\in R^q,q\ll p$
$X=(x_1,x_2,..,x_N)^T_{N\times P}\\ X= \left( \begin{array}{ccc} x_1^T \\ x_2^T\\ ...\\ x_N^T \end{array} \right )=\left( \begin{array}{} x_{11},x_{12},...,x_{1P} \\ x_{21},x_{22},...,x_{2P}\\ ...\\ x_{N1},x_{N2},...,x_{NP} \end{array} \right )$
样本均值
$\bar X =\frac1N\sum_i^Nx_i\\ \bar X= \frac1N(x_1,x_2,...,x_N)_{P\times N} \cdot \left(\begin{array}{}1\\1\\...\\1\end{array}\right)_{N\times1}=\frac1NX^T\times 1_{N\times 1}$
矩阵协方差，当x为列向量时： $xx^T$ ,当x是行向量是 $x^Tx$
$\frac1N\sum_i^N(x_i-\bar X)(x_i-\bar X)^T$
展开可知 $S=\frac1N(x_1-\bar X,x_2-\bar X,...,x_N-\bar X)\cdot \left(\begin{array}{}(x_1-\bar X)^T\\(x_2-\bar X)^T\\...\\(x_N-\bar X)^T\end{array}\right)$
该式的第一部分可化为
$=((x_1,x_2,...x_N)-\bar X\cdot 1_{N\times 1}^T)\\ =X^T-\frac1Nx^T\cdot 1_{N\times1}\cdot 1_{N\times1}^T\\ =X^T(E-\frac1N1_{N\times1}\cdot 1_{N\times1}^T)$
则第二部分转置为
$(E-\frac1N1_{N\times1}\cdot 1_{N\times1}^T)^T\cdot X$
则可以得到协方差矩阵
$S=\frac1N X^THH^TX$
其中定义中心矩阵 $H=(E-\frac1N1_{N\times1}\cdot 1_{N\times1}^T)$

中心矩阵的作用是将样本的均值变成0， $\hat{x_i}=Hx_i,\sum_i\hat{x_i}=0$
中心矩阵是一个对称矩阵， $H^T=(E-\frac1N1_{N\times1}\cdot1_{N\times1}^T)=H$
计算可得 $H\cdot H=H,H^N=H$

则协方差矩阵可化简为 $S=\frac1NX^THX$

PCA的核心思想即为对样本空间特征的重构并进行特征选择，也就是在特征空间找找到一个超平面，将样本映射在该超平面中从而实现降维，基于的方法是1样本对于超平面的最大投影方差；2样本的最小投影距离（最小重构距离）。
假设超平面的单位基向量为 $u,|u|^2=1,u^u=1$

基于最大投影方差

样本完成中心化 $x_i-\bar X$
中心化之后的样本到超平面的投影
$(x_i-\bar X)^T\cdot u$
所有样本的投影方差为 $J=\frac1N\sum_i^N((x_i-\bar X)^T\cdot u-0)^2$
可以转化为
$J=\frac1N\sum_i^N u^T(x_i-\bar X)(x_i-\bar X)^T u\\ J=u^T(\frac1N\sum_i^N(x_i -\bar X)(x_i-\bar X)^T) u\\ J=u^TSu$
则可以得到一个最优化问题
$\hat{u}=\arg\max u^TSu\\ s.t.\;u^Tu=1$
通过拉格朗日数乘法求解u
$L(u,\lambda)=u^tSu+\lambda (1-u^tu)\\ {\partial l\over \partial u}=2Su-2\lambda u=0\\ Su=\lambda u\\ s.t. \;u^Tu=1$
则得到超平面的基向量是矩阵协方差矩阵的特征向量。那么得到的特征向量即是对原样本空间特征的重构。将特征值从大到小排列，可以得到其对应的特征向量，即可得到所需要的降维之后的超平面的基向量，至此完成了对样本的降维。

降维之后的向量为 $Z_i=\sum_j^q(x_i-\bar X)\cdot u_ju_j$

基于最小投影距离

最小投影距离等价于最小的重构距离，即对于要投影的超平面的基向量u和投影之后的向量Z，现在得到将Z恢复到X需要距离最小的那个u,即是最优的超平面的基向量。
假设将样本空间重构之后的基向量为 $u_1,u_2,u_p$ ,则对于每个样本而言可以得到其坐标 $x_i=\sum_j^px_iu_ju_j$ ,因为样本空间没变只是改变了基向量，所有样本和之前基向量的样本是一样的；得到降维之后的样本其坐标 $\hat{x_i}=\sum_j^q x_iu_ju_j$ ,则可以得到两者之间的差值，即为投影所需要的重构距离也可以理解为投影距离。
$J=\frac1N\sum_i^N(|x_i-\hat{x_i}|^2)\\ J=\frac1N\sum_i^N(|\sum_j^px_iu_ju_-\sum_j^q x_iu_ju_j|^2)\\ J=\frac1N\sum_i^N(|\sum_{k=p+1}^qx_iu_ku_k|^2) (括号里面的是个向量)\\ J=\frac1N\sum_i^N\sum_{k=p+1}^q(x_iu_k)^2(转化为求欧式距离)\\ J=\frac1N\sum_i^N\sum_{k=p+1}^q((x_i-\bar X)u_k)^2(样本中心化)\\ J=\sum_{k=p+1}^q\frac1N\sum_{i}^N((x_i-\bar X)u_k)^2\\ J=\sum_{k=p+1}^qu_kSu_k$
则得到重构代价函数：
$\hat{u}=\arg\min\sum_{k=p+1}^quSu\\ s.t.\;u_ku=1$
因为每个U之间线性无关，则对于每一个U，都可以分别求解
$\hat{u_k}=\arg\min\sum_{k=p+1}^qu_kSu_k\\ s.t.\;u_ku_k=1$
则可以分别得到 $k={q+1,...,p}$ 的特征向量，剩余的q个特征向量就是需要的降维的q个降维之后的基向量。

核化PCA

当高维空间到低维空间中是线性变化的时候可以采用PCA的方法，但如果高维数据不是线性的时候，需要先从将原始样本映射到一个更高维的空间中，在更高维的空间中采用PCA的方法
将原始的求协方差矩阵 $X^TX x=\lambda x$
映射到高维的空间中求协方差矩阵的特征向量 $\phi(X^T)\phi(X)x=\lambda x$
其中 $\phi(X)$ 映射核函数，通常不会显示的给出，而是定义 $K(x,z)=\phi(x)\phi(z)$