Notes 6 & 7 : Kernel Methods and SVM (核方法与支持向量机)

Haicang

注:
对于一些专有名词的翻译可能不准确。
对公式的编号与 PRML 中相同。

Kernel Methods

Overview

在 linear parametric models (参数模型)中,我们通过学习 y=wTx+b y = w T x + b 中的 w w ,而在学习完成后,我们丢弃了整个训练集,使用这个式子对新的数据进行预测。

而在另外一类模型比如 KNN (K-临近)中,模型只是记住了整个训练集,在预测时,通过某种准则(metric)(例如:距离该点最近的几个点是什么类别)来进行预测。这类模型通常训练很快,但做预测时相对比较慢。

那么,能否将两者结合起来呢?事实上 linear parametric models (线性参数模型)可以通过某种 dual representation (对偶表示)[1] 转化为依赖训练样本点的模型。这种 dual representation 通过kernel function(核函数)进行实现:

(6.1) k ( x , x ) = ϕ ( x ) T ϕ ( x )

很明显,kernel 具有对称性: k(x,x)=k(x,x) k ( x , x ′ ) = k ( x ′ , x ) 。可以将 kernel 看作某种形式的内积,因此,kernel 的结果是一个 scalar(标量)。

在 (6.1) 中, ϕ(x) ϕ ( x ) 是 feature space mapping(特征映射),通常映射到一个高维向量。为什么要这么做,因为对于 N 个点,它们在 N 维的空间中总是线性可分的[2]!这样,我们可以将 linear parametric model 改写为下面的形式,这其实就是一个 generalized linear model (广义线性模型):

y=wTϕ(x)+b y = w T ϕ ( x ) + b

由于在高维空间中, ϕ(x) ϕ ( x ) 是线性可分的,因此上面的线性分类就有很好的效果。

那么,现在的问题是, ϕ(x) ϕ ( x ) w w 都是高维的,这样就带来了很大的计算开销,而且

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值