PCA详解

原创

已于 2022-06-05 11:50:35 修改 · 1.2w 阅读

91 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #数据挖掘

于 2022-06-04 21:57:18 首次发布

PCA（主成分分析）是一种常用的数据降维方法，用于解决训练集与测试集泛化误差问题。通过线性变换，PCA将数据从高维降至低维，最大化信息保留并降低计算复杂度。核心步骤包括数据中心化、求协方差矩阵、解特征值与特征向量。PCA的目标是找到最大化投影方差的投影方向，同时最小化重构代价。此外，PCA与奇异值分解（SVD）存在联系，当数据量大时，可通过SVD简化计算。

本文目录

一、来源及作用
- 存在问题
- 基本作用
二、基本原理及求解步骤
- 核心思想
- 如何选择投影方向
三、原理分析
- 最大投影方差
- 最小重构代价
四、SVD与PCA的关系

一、来源及作用

存在问题

在我们训练模型的过程中，有时会出现在训练集上误差较小，但到了测试集误差又较大，我们称之为泛化误差，造成这种现象往往是以下几个原因：

训练数据不足
训练集与测试集数据分布不同
特征维度过高，造成过拟合

而为了解决这一问题，我们又有以下几种方法：

增加样本数量
使用正则项
对数据进行降维

其中对数据进行降维可以进行人工特征筛选，但往往费时又费力，效果还有可能不好，因此我们可以采用一些模型来进行数据降，其中比较常用的就是PCA(Principal Component Analysis)，即主成分分析。

基本作用

PCA经常被用作以下几个方面：

数据降维（降低高维数据，简化计算）
数据去噪
处理共线特征，降低算法的开销，同时防止样本过拟合

二、基本原理及求解步骤

核心思想

PCA的核心思想是经过线性变换，将数据从 $n$ 维线性空间映射至 $k$ 维（ $k < n$ ），并且期望在投影方向上信息量最大，同时将数据进行反向重构时代价最小。

比如下面一组数据：
在这里插入图片描述

如果我们将其投影至X轴，则其效果如下：
在这里插入图片描述

X = [1  7 -4  1  5 -1  3 -2 -6 -2]
Y = [ 1.86379123  6.27582279 -3.08964086  3.39810814  6.43125938 -0.57665254
  3.06208316 -1.7341361  -6.09519518 -1.36688637]

如果我们将其投影至Y轴，则效果如下：
在这里插入图片描述

但如果我们将其投影至过原点的一条直线，其效果将变为：
在这里插入图片描述
很显然投影至 $y = x$ 直线上，更能体现出数据之间的差异性。

如何选择投影方向

1.数据中心化

即所有特征分别减去其各自维度的平均值，其效果就是将所有数据往原点方向整体偏移，处理后的数据平均值为0.

2.求协方差矩阵C

我们以原始特征空间为2维举例： $\left[ {\begin{array}{cc} cov(x_1,x_1) & cov(x_1,x_2) \\ cov(x_2,x_1) & cov(x_2,x_2) \\ \end{array} } \right]$

C的纬度是 $k * k$ 维的， $k$ 为特征的数量。
对角线上的值分别是 $x_1$ 和 $x_2$ 的方差，非对角线上的是协方差，协方差可以用来描述两个特征之间的相关性，协方差大于0表示 $x_1$ 和 $x_2$ 成正相关，即一个增大，另一个也增大；如果协方差小于0，则说明呈负相关；如果协方差等于0，则说明线性无关。协方差的绝对值越大，相关性越强；反之则越弱
其中对于协方差并没有统一的度量值

其中：
$\begin{aligned}cov(x,y)&=E[(x-E(x))(y-E(y))]\\&=\frac{\sum\limits_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{n}\end{aligned}$
由于中心化后的数据各个维度上的平均值都为0，因此
$\begin{aligned}cov(x,y)&=\frac{1}{n}\sum\limits_{i=1}^nx_iy_i\\&=\frac{1}{n}x^Ty\end{aligned}$
由此可得： $C=\frac{1}{n}X^TX$

这里 $n$ 为样本的数量，X为所有样本的特征构成的矩阵

3.求解协方差矩阵的特征值与特征向量

令 $C\mu=\lambda\mu$
就可以解出一组特征值与特征向量 $\{(\lambda_1,\mu_1),(\lambda_2,\mu_2)...(\lambda_n,\mu_n)\}$

我们将其按照特征值从大到小排列，如果要将数据从 $n$ 维投影至 $k$ 维，我们取前 $k$ 个特征值对应的特征向量，并且将其标准化，使得每个特征向量的模为1，将其从上到下按行排列构成特征矩阵 $P$
$\left[ {\begin{array}{cc} \mu_1\\ \mu_2 \\ .\\ .\\ .\\ \mu_k \end{array} } \right]$