【机器学习基础】CH2 - 监督学习(3)核方法

2.3 Kernel Methods 核方法

  • recall: 在2.2.2部分,我们看到,general linear basis models 通过依靠一组函数 { ϕj}\{\phi_j\}{ ϕj} 将输入 xi∈Rdx_i \in \mathbb{R}^dxiRd 转换在 R\mathbb{R}R 上。而 { ϕj}\{\phi_j\}{ ϕj} 被称为 feature maps 特征映射,它们将从输入数据中提取 有用的特征,并允许我们在生成的空间 R\mathbb{R}R 中使用 线性模型
  • 这部分,我们将在 kernel methods 中广泛的应用这个想法。
2.3.1 最小二乘(revisited)

考虑 l2\mathcal{l}^2l2 - 正则最小二乘问题(也称为 ridge regression 岭回归),其 feature map 为 { ϕj}j=0M−1\{\phi_j\}^{M-1}_{j=0}{ ϕj}j=0M1
Remp(w)=12N(∣∣Φω−y∣∣2+λ∣∣ω∣∣2)(2.34) R_{emp}(w)=\frac{1}{2N}(||\Phi\omega-y||^2+\lambda||\omega||^2)\tag{2.34} Remp(w)=2N1(Φωy2+λω2)(2.34)

回忆到 design matrix Φ\PhiΦ 的定义:

在这里插入图片描述

假设正则系数 λ>0\lambda\gt 0λ>0 ,和 Proposition 2.7,我们可以证明最小二乘的解可由下式得到:
w^=(ΦTΦ+λIM)−1ΦTy(2.35) \hat{w}=(\Phi^T\Phi+\lambda I_M)^{-1}\Phi^Ty\tag{2.35} w^=(ΦTΦ+λIM)1ΦTy(2.35)
且预测输出为 y^=Φw^\hat{y}=\Phi\hat{w}y^=Φw^

更普遍的情况下,在假设空间里的最佳逼近方程 f^\hat{f}f^ 对一个新的样本 x∈Rdx\in\mathbb{R}^dxRd 做出如下预测:
f^(x)=ϕ(x)Tw^(2.36) \hat{f}(x)=\phi(x)^T\hat{w}\tag{2.36} f^(x)=ϕ(x)Tw^(2.36)
其中,ϕ(x)=(ϕ0(x),...,ϕM−1(x))\phi(x)=(\phi_0(x),...,\phi_{M-1}(x))ϕ(x)=(ϕ0(x),...,ϕM1(x))

注意到,不像 Proposition 2.7 ,我们在此处不需要可逆性的条件,因为 ΦTΦ+λIM\Phi^T\Phi+\lambda I_MΦTΦ+λIM 永远为正(λ>0\lambda\gt0λ>0),所以本身就是可逆的。

  • Exercise 2.14

    推导正则化最小二乘解(2.35)。

  • 现考虑正则化最小二乘解的另一形式:
    w^=(ΦTΦ+λIM)−1ΦTy=ΦT(ΦΦT+λIN)−1y(2.37) \hat{w}=(\Phi^T\Phi+\lambda I_M)^{-1}\Phi^Ty=\Phi^T(\Phi\Phi^T+\lambda I_N)^{-1}y\tag{2.37} w^=(ΦTΦ+λIM)1ΦTy=ΦT(ΦΦT+λIN)1y(2.37)

在这里插入图片描述

我们又可以得到:
f^(x)=∑i=1Nαiϕ(x)Tϕ(xi)(2.42) \hat{f}(x)=\sum^N_{i=1}\alpha_i\phi(x)^T\phi(x_i)\tag{2.42} f^(x)=i=1Nαiϕ(x)Tϕ(xi)(2.42)
式子(2.42)和(2.36)实际上是等价的。

说明啥?

注意到,N×NN \times NN×N 的矩阵 ΦΦT\Phi\Phi^TΦΦT 的第 iiijjj 部分可以写成 ϕ(xi)Tϕ(xj)\phi(x_i)^T\phi(x_j)ϕ(xi)Tϕ(xj) 。因此,不像式子(2.36),式子(2.42)只取决于 feature map ϕ\phiϕ by 函数 (x,x′)↦ϕ(x)Tϕ(x′)(x,x')\mapsto \phi(x)^T\phi(x')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值