【机器学习基础】CH2 - 监督学习(3)核方法_证明特征映射对应于核函数-优快云博客

2.3 Kernel Methods 核方法

recall：在2.2.2部分，我们看到，general linear basis models 通过依靠一组函数 $ϕj}\{\phi_j\}$ 将输入 $xi∈Rdx_i \in \mathbb{R}^d$ 转换在 $R\mathbb{R}$ 上。而 $ϕj}\{\phi_j\}$ 被称为 feature maps 特征映射，它们将从输入数据中提取 有用的特征，并允许我们在生成的空间 $R\mathbb{R}$ 中使用 线性模型。
这部分，我们将在 kernel methods 中广泛的应用这个想法。

2.3.1 最小二乘（revisited）

考虑 $l2\mathcal{l}^2$ - 正则最小二乘问题（也称为 ridge regression 岭回归），其 feature map 为 $ϕj}j=0M−1\{\phi_j\}^{M-1}_{j=0}$ ，
$R_{emp}(w)=\frac{1}{2N}(||\Phi\omega-y||^2+\lambda||\omega||^2)\tag{2.34}$

回忆到 design matrix $Φ\Phi$ 的定义：

在这里插入图片描述

假设正则系数 $λ>0\lambda\gt 0$ ，和 Proposition 2.7，我们可以证明最小二乘的解可由下式得到：
$w^=(ΦTΦ+λIM)−1ΦTy(2.35) \hat{w}=(\Phi^T\Phi+\lambda I_M)^{-1}\Phi^Ty\tag{2.35}$
且预测输出为 $y^=Φw^\hat{y}=\Phi\hat{w}$ 。

更普遍的情况下，在假设空间里的最佳逼近方程 $f^\hat{f}$ 对一个新的样本 $x∈Rdx\in\mathbb{R}^d$ 做出如下预测：
$f^(x)=ϕ(x)Tw^(2.36) \hat{f}(x)=\phi(x)^T\hat{w}\tag{2.36}$
其中， $ϕ(x)=(ϕ0(x),...,ϕM−1(x))\phi(x)=(\phi_0(x),...,\phi_{M-1}(x))$ 。

注意到，不像 Proposition 2.7 ，我们在此处不需要可逆性的条件，因为 $ΦTΦ+λIM\Phi^T\Phi+\lambda I_M$ 永远为正（ $λ>0\lambda\gt0$ ），所以本身就是可逆的。

Exercise 2.14

推导正则化最小二乘解（2.35）。
现考虑正则化最小二乘解的另一形式：
$w^=(ΦTΦ+λIM)−1ΦTy=ΦT(ΦΦT+λIN)−1y(2.37) \hat{w}=(\Phi^T\Phi+\lambda I_M)^{-1}\Phi^Ty=\Phi^T(\Phi\Phi^T+\lambda I_N)^{-1}y\tag{2.37}$

在这里插入图片描述

我们又可以得到：
$f^(x)=∑i=1Nαiϕ(x)Tϕ(xi)(2.42) \hat{f}(x)=\sum^N_{i=1}\alpha_i\phi(x)^T\phi(x_i)\tag{2.42}$
式子（2.42）和（2.36）实际上是等价的。

说明啥？

注意到， $\times N$ 的矩阵 $ΦΦT\Phi\Phi^T$ 的第 $i$ 和 $j$ 部分可以写成 $ϕ(xi)Tϕ(xj)\phi(x_i)^T\phi(x_j)$ 。因此，不像式子（2.36），式子（2.42）只取决于 feature map $ϕ\phi$ by 函数 $(x,x′)↦ϕ(x)Tϕ(x′)(x,x')\mapsto \phi(x)^T\phi(x')$