Kernelized Principal Component Analysis详解

最新推荐文章于 2022-04-28 21:27:36 发布

Leon1895

最新推荐文章于 2022-04-28 21:27:36 发布

阅读量411

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： KPCA 核主成分分析

本文链接：https://blog.youkuaiyun.com/qq_40793975/article/details/86537350

机器学习专栏收录该内容

47 篇文章

订阅专栏

本文详细解析了主成分分析（PCA）的局限性，并介绍了如何通过引入核化来解决这一问题，即核主成分分析（KPCA）。KPCA通过非线性映射在高维空间中进行PCA，以更好地保留数据的结构。文章深入探讨了KPCA的推导过程，包括核函数的使用和计算复杂度的分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Kernelized Principal Component Analysis详解

第三十八次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。《主成分分析（PCA）详解（附带详细公式推导）》一文中曾对一种重要的降维手段——主成分分析（PCA）进行了讲解，这篇文章则主要对PCA的一种变体——核主成分分析（KPCA）进行讲解。

主成分分析的问题分析

主成分分析（PCA）中采用的降维方法是线性降维，然而在很多现实任务中，可能需要非线性映射才能找到恰当的低维嵌入（Low-dimension Embedding），如下图所示，图1（a）中的3000个样本点是从图1（b）所示的二维矩形区域采样后并以S形曲面嵌入到三维空间中的，为了对这个二维矩形区域和经过降维后得到的低维嵌入进行对比，在这里将此区域称为“本真”（Intrinsic）二维空间，可以看出经过PCA降维后得到的低维嵌入丢失了原始数据的低维结构。主成分分析（PCA）中采用的降维方法是线性降维，然而在很多现实任务中，可能需要非线性映射才能找到恰当的低维嵌入（Low-dimension Embedding），如下图所示，图1（a）中的3000个样本点是从图1（b）所示的二维矩形区域采样后并以S形曲面嵌入到三维空间中的，为了对这个二维矩形区域和经过降维后得到的低维嵌入进行对比，在这里将此区域称为“本真”（Intrinsic）二维空间，可以看出经过PCA降维后得到的低维嵌入丢失了原始数据的低维结构。

图1 线性降维的不足

基于上述问题，我们考虑向线性降维中引入“核化”（kernelized），下面对核化版本的主成分分析，即核主成分分析（Kernelized Principal Component Analysis，简称KPCA）进行分析。

核主成分分析的推导

假设，原始样本空间 $\mathbf{X}\in\mathbb{R}^{d\times{m}}$ ，核化后的样本空间 $\mathbf{Z}\in\mathbb{R}^{d'\times{m}}$ ，降维后得到的样本空间 $\mathbf{Y}\in\mathbb{R}^{d''\times{m}}$ ，那么由PCA我们可知存在如下等式，

$\left(\sum_{i=1}^{m}{\mathbf{z}_{i}\mathbf{z}_{i}^{T}}\right)\mathbf{w}_{j}=\lambda_{j}\mathbf{w}_{j} \tag{1}$

其中， $\mathbf{z}_i$ 是原样本空间中第 $i$ 个样本点 $\mathbf{x}_i$ 在核化后的高维空间中的对应点， $\mathbf{w}_j$ 是要求得的投影矩阵 $\mathbf{W}\in{\mathbb{R}^{d'\times{d''}}}$ 的第 $j$ 个向量， $\lambda_j$ 是协方差矩阵 $\mathbf{Z}\mathbf{Z}^{T}$ 的第 $j$ 个特征值，那么 $\mathbf{w}_j$ 可以作如下表示，

$\mathbf{w}_{j}=\frac{1}{\lambda_{j}}\left(\sum_{i=1}^{m}{\mathbf{z}_{i}\mathbf{z}_{i}^{T}}\right)\mathbf{w}_{j}=\sum_{i=1}^{m}{\mathbf{z}_i}\frac{\mathbf{z}_{i}^{T}\mathbf{w}_{j}}{\lambda_{j}}=\sum_{i=1}^{m}{\mathbf{z}_{i}\alpha_{i}^{j}} \tag{2}$

其中， $\alpha_{i}^{j}=\frac{\mathbf{z}_{i}^{T}\mathbf{w}_{j}}{\lambda_j}$ 是 $\mathbf{\alpha}_i$ 的第 $j$ 个分量，存在映射 $\phi:\mathbf{x}_i\rightarrow{\mathbf{z}_i}$ ，如果 $\phi$ 已知，那么可以先将原始样本空间中的点映射到高维空间中去，然后在高维空间中运行PCA得到低维嵌入，这时式（1）和（2）可以表示为，

$\left(\sum_{i=1}^{m}{\phi\left(\mathbf{x}_{i}\right)\phi\left(\mathbf{x}_{i}\right)^{T}}\right)\mathbf{w}_{j}=\lambda_{j}\mathbf{w}_{j} \tag{3}$
$\mathbf{w}_j=\sum_{i=1}^{m}{\phi\left(\mathbf{x}_{i}\right)\alpha_{i}^{j}} \tag{4}$

由于现实情况中，我们并不清楚映射 $\phi:\mathbf{x}_i\rightarrow{\mathbf{z}_i}$ 的具体形式，因此在这里引入核函数

$k\left(\mathbf{x}_i,\mathbf{x}_j\right)=\phi\left(\mathbf{x}_{i}\right)^{T}\phi\left(\mathbf{x}_{j}\right) \tag{5}$

将式（4）和（5）带入式（3）中，可以得到

$\mathbf{K}\alpha^{j}=\lambda_{j}\alpha^{j}$

其中， $\mathbf{K}$ 是 $k$ 对应的核矩阵， $\left(\mathbf{K}\right)_{ij}=k\left(\mathbf{x}_i,\mathbf{x}_j\right)$ ， $\alpha^{j}=\left(\alpha_{1}^{j};\alpha_{2}^{j};...;\alpha_{m}^{j}\right)$ ，下面的步骤与PCA类似，对矩阵 $\mathbf{K}$ 进行特征值分解，取最大的 $d^{''}$ 个特征值对应的特征向量作为投影矩阵 $\mathbf{W}=\left(\mathbf{w}_1,\mathbf{w}_2,...,\mathbf{w}_{d''}\right)$ 的解，那么对于样本点 $\mathbf{x}$ ，低维嵌入中对应点的第 $j$ 维坐标为

$y^{j}=\mathbf{w}_j^{T}\phi\left(\mathbf{x}\right)=\sum_{i=1}^{m}{\alpha_{i}^{j}\phi\left(\mathbf{x}_{i}\right)^{T}\phi\left(\mathbf{x}\right)}=\sum_{i=1}^{m}{\alpha_{i}^{j}k\left(\mathbf{x}_i,\mathbf{x}\right)}$