PRML第六章读书笔记——Kernel Methods 静止核、对偶表示、构造核、高斯核函数、Fisher核、径向基函数网络/Nadaraya-Watson模型、高斯过程回归/分类/自动相关确定

最新推荐文章于 2025-10-15 00:23:33 发布

原创

最新推荐文章于 2025-10-15 00:23:33 发布 · 1.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #核方法

（这一章感觉比较抽象，而且和之前学的线性回归和逻辑回归之间有奇妙的联系。最后一页高斯过程用于分类时选模型的公式推导我略去了，没有细看）

许多线性参数模型可以被转化为一个等价的“对偶表示”dual representation，其中，预测是基于训练数据点处的核函数线性组合
对于非线性特征空间映射 $\phi(\bm x)$ ，核函数为
$k(\bm x,\bm x')=\phi(\bm x)^T\phi(\bm x')$
注意核函数是对称的
核函数有许多扩展，例如核技巧。如果有一个算法，只和输入向量的标量积有关，则可以用其它的核函数形式来替换这个标量积。例如把PCA扩展到非线性PCA，把knn扩展到非线性knn，以及带核的Fisher判别分析等。
（核技巧之前写过一篇博客：核技巧的一些知识点——CVMLI Prince读书随笔第7章，这里要融会贯通一下）

核技巧能把特征升到高维，从而避免避免维度灾难吗？
实际上，升到高维后，数据仍然是高维空间中的低维流形。本身维度没有发生变化。

静止核stationary kernel

只和差有关，具有平移不变性
$k(\bm x,\bm x')=k(\bm x-\bm x')$

径向基函数radial basis function（同质核homogeneous kernel）

只和距离有关，具有平移不变性
$k(\bm x,\bm x')=k(\|\bm x-\bm x'\|)$

6.1 Dual Representations

考虑线性回归MAP解，损失函数为
$J(\bm w)=\frac{1}{2}\sum_{n=1}^N \{ \bm w^T\bm\phi(\bm x_n)-t_n \}^2+\frac{\lambda}{2}\bm w^T\bm w$
回顾第3章，这个解为
$\bm w=(\lambda \bm I_M+\bm\Phi^T \bm\Phi)^{-1}\bm\Phi^T \bm t$
其中 $\bm\Phi=[\bm\phi(x_1),\bm\phi(x_2), \cdots, \bm\phi(x_N)]^T$
用Woodbury恒等式，右侧变为
$\begin{aligned} &[\lambda^{-1}\bm\Phi^T-\lambda^{-1}\bm\Phi^T(\bm I_N+\bm\Phi \lambda^{-1} \bm\Phi^T)^{-1}\bm\Phi \lambda^{-1}\bm\Phi^T] \bm t \\ =&[\lambda^{-1}\bm\Phi^T-\lambda^{-1}\bm\Phi^T(\lambda \bm I_N+\bm\Phi \bm\Phi^T)^{-1}\bm\Phi \bm\Phi^T ]\bm t \\ =&[\lambda^{-1}\bm\Phi^T(\lambda \bm I_N+\bm\Phi\bm\Phi^T)^{-1}(\lambda \bm I_N + \bm\Phi \bm\Phi^T-\bm\Phi\bm\Phi^T) ]\bm t \\ =& \bm\Phi^T(\lambda \bm I_N+\bm\Phi\bm\Phi^T)^{-1} \bm t \end{aligned}$
这波操作有点神奇。。。
（书上用的另一种推法，我没有细看，但是结果一样的，我为了保持思路连续，沿用了第3章的结论）
从而
$y(\bm x)=\bm\phi(\bm x)^T\bm w=\bm\phi(\bm x)^T\bm\Phi^T(\lambda \bm I_N+\bm\Phi \bm\Phi^T)^{-1}\bm t=\bm k(\bm x)^T(\bm K+\lambda \bm I_N)^{-1}\bm t$

其中 $\bm K=\bm\Phi \bm\Phi^T$ 是Gram矩阵，元素为 $K_{nm}=\bm\phi(\bm x_n)^T\bm\phi(\bm x_m)=k(\bm x_n,\bm x_m)$ ，向量 $\bm k$ 由 $k_n(\bm x)=k(\bm x_n,\bm x)$ 组成

这里的对偶形式，完全由核函数表达
结果是新观测和训练集计算核函数的结果的线性组合，满足 $y(\bm x)=\sum_{n=1}^N \alpha_n k(\bm x_n, \bm x)$
实际上 $(\lambda \bm I_N+\bm K)^{-1}\bm t$ 是向量 $\bm\phi(\bm x_n)$ 的线性组合（没证……）
这里对偶形式求逆的维度为 $N$ ，当数据量大时，比原形式的复杂度要大很多
不过这里可以直接定义核函数 $k$ ，而不用考虑特征映射 $\bm\phi$

感知机也可以写出对偶形式

6.2 Constructing Kernels

最简单的构造核方法是从
$k(x,x')=\phi(x)^T\phi(x')$
如图所示
在这里插入图片描述

但我们可以不需要直接设计 $\phi$ ，直接构造 $k$ ，但是要保证它对应一个标量积（可以是无穷维）

关于核函数的判定参见最上方贴出的之前的博客，这里再回顾一下：

对于任意 $\{\bm x_n\}$ ， $\bm K$ 需要半正定，其中元素由 $k(\bm x_n,\bm x_m$ )组成

一种构造核的办法是根据已有的核构造新的
在这里插入图片描述

P296 高斯核

$k(\bm x,\bm x')=\exp \left(-\| \bm x-\bm x'\|^2/(2\sigma^2)\right)$
可以认为构造方法为
$\exp(-\bm x^T\bm x/(2\sigma^2)\exp(\bm x^T\bm x'/\sigma^2)\exp(-\bm x'^T\bm x'/(2\sigma^2))$
使用上述图中(6.14)和(6.16)进行构造
注意特征向量是无穷维的
高斯核函数可以不局限于欧氏距离
$k(\bm x,\bm x')=\exp(-\frac{1}{2\sigma^2}(\kappa(\bm x,\bm x) +\kappa(\bm x',\bm x') - 2\kappa(\bm x, \bm x'))$