Haicang
注:
对于一些专有名词的翻译可能不准确。
对公式的编号与 PRML 中相同。
Kernel Methods
Overview
在 linear parametric models (参数模型)中,我们通过学习 y=wTx+b y = w T x + b 中的 w w ,而在学习完成后,我们丢弃了整个训练集,使用这个式子对新的数据进行预测。
而在另外一类模型比如 KNN (K-临近)中,模型只是记住了整个训练集,在预测时,通过某种准则(metric)(例如:距离该点最近的几个点是什么类别)来进行预测。这类模型通常训练很快,但做预测时相对比较慢。
那么,能否将两者结合起来呢?事实上 linear parametric models (线性参数模型)可以通过某种 dual representation (对偶表示)[1] 转化为依赖训练样本点的模型。这种 dual representation 通过kernel function(核函数)进行实现:
很明显,kernel 具有对称性: k(x,x′)=k(x′,x) k ( x , x ′ ) = k ( x ′ , x ) 。可以将 kernel 看作某种形式的内积,因此,kernel 的结果是一个 scalar(标量)。
在 (6.1) 中, ϕ(x) ϕ ( x ) 是 feature space mapping(特征映射),通常映射到一个高维向量。为什么要这么做,因为对于 N 个点,它们在 N 维的空间中总是线性可分的[2]!这样,我们可以将 linear parametric model 改写为下面的形式,这其实就是一个 generalized linear model (广义线性模型):
由于在高维空间中, ϕ(x) ϕ ( x ) 是线性可分的,因此上面的线性分类就有很好的效果。
那么,现在的问题是, ϕ(x) ϕ ( x ) 和 w w 都是高维的,这样就带来了很大的计算开销,而且