主成分分析方法PCA（二）

最新推荐文章于 2023-03-06 00:24:26 发布

原创最新推荐文章于 2023-03-06 00:24:26 发布 · 490 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

32 篇文章

订阅专栏

主成分分析（PCA）是一种有效的特征选择方法，通过线性变换找到一组不相关的特征，降低数据的维度同时保留主要信息。PCA的目标是最大化新特征的方差，使得新特征在原始数据中的差异性最大化。在约束条件下，PCA通过求解协方差矩阵的特征向量来获取主成分，这些特征向量对应于最大特征值，从而构成变换矩阵A。选择前K个主成分，可以保留大部分数据方差，简化模型且降低计算复杂度。

特征选择的目的：

①：降低特征空间的维度，使后续的分类器设计在计算上更容易实现；

②：为了消除特征之间可能存在的相关性，减少特征中与分类无关的信息，使新特征更有利于分类。

主成分分析方法：

（1）算法的出发点是从一组特征中计算出一组按重要性从大到小排列的新特征，它们是原有特征的线性组合，并且相互之间是不相关的。

（2）算法实现思路：

①记 $x_1,x_2,...,x_p$ 为p个原始特征，设新特征 $\xi _i (i=1,2,...p)$ 是这些原始特征的线性组合：

$\xi _i =\sum_{j=1}^p\alpha_{ij}x_j=\alpha^T_ix$

为了统一 $\xi _i$ 的尺度，我们要求线性组合系数的模为1，即有：

$\alpha^T_i\alpha_i=1$

②将①写成矩阵的形式为：

$\xi=A^Tx$

这里，其中 $\xi$ 是由新特征 $\xi _i$ 组成的向量，A是由 $\alpha_i$ 构造的特征变换矩阵。要求解的是最优的正交变换A，它使新特征 $\xi _i$ 的方差达到了极值。正交变换保证了新特征间不相关，而新特征的方差越大，则样本在该维特征上的差异越大，这一特征越重要。

以下部分为A的求解及推导过程：

③考察新特征 $\xi _i$ ，其方差为 $var(\xi _i)=\alpha^T_i\Sigma\alpha_i$ ，此处的 $\Sigma$ 表示x的协方差矩阵。

④在约束条件下（ $\alpha^T_i\alpha_i=1$ ），最大化 $\xi _i$ 的方差 $var(\xi _i)=\alpha^T_i\Sigma\alpha_i$ 。写成拉格朗日函数的形式为：

$f(\alpha _i)=\alpha^T_i\Sigma\alpha_i-v_i(\alpha_i^T\alpha_i-1)$

其中， $v_i$ 是拉格朗日乘子。

⑤对 $\alpha _i$ 求导，得到最优解满足 $\Sigma\alpha_i=v_i\alpha_i$ 。这是协方差矩阵 $\Sigma$ 的特征方程，即 $\alpha _i$ 是 $\Sigma$ 的特征向量， $v_i$ 是对应的特征值。

⑥将⑤中的解带入③，可以得到 $\xi _i$ 的最大方差为：

$var(\xi _i)=\alpha^T_i\Sigma\alpha_i=\alpha_i^Tv_i\alpha_i=v_i\alpha_i^T\alpha_i=v_i$

从该式可以看出，欲使 $var(\xi _i)$ 最大，即要使 $v_i$ 最大。因此，最优的 $\alpha _i$ 应该是 $\Sigma$ 的最大特征值对应的特征向量。

（3）协方差矩阵 $\Sigma$ 共有p个特征值 $\lambda_i(i=1,2,...,p)$ ，其中包括可能相等的特征值和可能为0的特征值。把所有的特征值从大到小排序为 $\lambda_1 \geq \lambda_2 \geq ...\geq \lambda_p$ 。由特征值得到特征向量 $\alpha _i$ ，进而得到主成分 $\xi _i=\alpha_i^Tx$ 。全部主成分的方差之和为：