机器学习之PCA

最新推荐文章于 2023-12-31 15:39:50 发布

原创最新推荐文章于 2023-12-31 15:39:50 发布 · 487 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#PCA #PCA降维

机器学习专栏收录该内容

6 篇文章

订阅专栏

在机器学习的数据预处理中，降维是重要环节，PCA主成分分析法是常见降维方法之一。本文介绍了PCA的概念，即寻找使数据方差最大的一维基；阐述了其原理和计算步骤，还给出了代码实现相关内容，同时说明了协方差的意义。

在机器学习中，数据预处理极为重要，好的数据预处理往往比模型更为关键，数据预处理中降维是相当重要的一个环节。常见的降维方法有很多种，如：SVD奇异值分解法，PCA主成分分析法等，这里主要针对PCA谈谈自己的看法。

PCA概念

PCA的思想是寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大。二维中用协方差表示数据分散程度，设原始数据矩阵 $X$ 对应的协方差矩阵为 $C$ ，而 $P$ 是一组基按行组成的矩阵，设 $Y = P X$ ，则 $Y$ 为 $X$ 对 $P$ 做基变换后的数据。设 $Y$ 的协方差矩阵为 $D$ ，我们推导一下 $D$ 与 $C$ 的关系：
$\begin{aligned} D &= \frac{1}{n-1}YY^{T} \\ &= \frac{1}{n-1}(PX)(PX)^{T} \\ &= \frac{1}{n-1}(PXX^{T}P^{T}) \\ &= P(\frac{1}{n-1}XX^{T})P^{T} \\ &= PCP^{T} \end{aligned}$
这样我们就看清楚了，我们要找的 P 是能让原始协方差矩阵对角化的 P。换句话说，优化目标变成了寻找一个矩阵 P，满足 $PCP^{T}$ 是一个对角矩阵，并且对角元素按从大到小依次排列，那么 P 的前 K 行就是要寻找的基，用 P 的前 K 行组成的矩阵乘以 X 就使得 X 从 N 维降到了 K 维并满足上述优化条件。

PCA原理

PCA算法流程如下：

中心化，每一个特征都减去各自的平均值（主要是方便计算）；
计算协方差矩阵（二维的是计算方差，多维的计算协方差）；
计算协方差矩阵的特征值和特征向量；
将特征值从大到小排序；
保留最大的k个特征向量；
将数据转换到k个特征向量构成的新坐标系中。

PCA计算步骤

假设 $x=(x_1, x_2, ..., x_n)^T$ 为 $n$ 维的随机矢量，我们想要降维指k维( $0 < k < n)$ 则PCA具体计算步骤如下：

对每个样本进行中心化处理， $xi=xi−1n∑i=1nxix_i = x_i - \frac{1}{n} \sum_{i=1}^n x_i$ ；
计算协方差矩阵
$\begin{aligned} cov(x_i, x_j) &= E[(x_i - E(x_i))(x_j - E(x_j))] \\ &=\frac{1}{n-1}(x_i - \overline x)(x_j - \overline x)^T \end{aligned}$
计算特征值和特征向量

这里首先说明一下特征值与特征向量的概念：假设 $A$ 为 $n$ 阶方阵，如果存在一个数 $λ\lambda$ 和非零 $n$ 维向量，使得 $\lambda x$ 成立，则称 $m$ 为矩阵 $A$ 的一个特征值， $x$ 则称为 $A$ 的对应于特征值 $λ\lambda$ 的特征向量。
利用 $\lambda x$ 变换为： $\lambda E| x = 0$ ， $E$ 为 $n$ 维的单位向量，解出该方程就可以得到特征值 $λ\lambda$ ，将 $λ\lambda$ 带入，则可求出对应的特征向量。

将特征值进行排序，选出前k个对应的特征向量，即为我们需要的数据。

PCA代码实现

import numpy as np

def func_pca(input, k):
    """
    这里的input默认都是预处理过的，都是数值类型，维度为 m * n
    """
    m, n = input.shape
    if k > n:
        assert "k 必须小于特征维度！"
    # 中心化
    average = np.mean(input, 0)
    input_average = input - average
    # 计算协方差矩阵
    cov_vec = np.cov(input_average.T)
    # 计算协方差也可以按照公式计算
    # cov_vec = 1/(m-1+1e-6) * np.dot(input_average.T, input_average)
    # 求解特征值和特征向量
    feature_val, feature_vec = np.linalg.eig(cov_vec)
    # 获取前 k 个特征向量
    index_val = np.argsort(-feature_val)
    selected_vec = feature_vec[:, index_val[:k]]
    # 获取data
    data = np.dot(input_average, selected_vec)
    return data