基函数、核函数与Kernel trick-优快云博客

文章目录

1. 什么是基函数
2. 什么是核函数(kernel function)
3. 常用一些核函数
4. 理解误区——核函数就是映射函数
References

1. 什么是基函数

基函数是在函数空间中的一组基础函数，构成函数空间的基本单元，可以用来表示其他函数，类似于向量空间中的基向量。

其作用是线性组合以逼近复杂函数，显式地构建函数表达。

常见的基函数有：

指数基函数： $bi(x) = e^{ai x}$
指数幂基函数： $bi(x) = (e^{ai x})^p$
正弦基函数： $\sin(ai x)$
余弦基函数： $\cos(ai x)$
多项式基函数： $b_i(x) = x^p$
高斯基函数： $e^{-(x - ai)^2 / 2 \sigma^2}$

这些基函数可以组合起来构成更复杂的函数，以适应不同的数据分布和特征关系。

2. 什么是核函数(kernel function)

2.1 简单直观理解

简单来说，核函数就是距离函数。

就是输入任意两个点的坐标，核函数就可以输出他们的距离。

为什么定义核函数？之所以要把核函数单独定义出来，是因为在不同场景下，会定义不同的距离，即不同核函数提取了不同的特征。

如果单纯应用核函数的话，了解到这里就足够了。

2.2 深入理解核函数

理解：核函数的作用是将数据从原始空间映射到更高维空间。

假设我们总能使用点积的形式来计算两个向量之间的距离：
$<\mathbf{a},\mathbf{b}>=\mathbf{a} \cdot \mathbf{b}=|\mathbf{a}|\cdot |\mathbf{b}| \cdot cos \theta. \quad\quad\quad$ 在这里插入图片描述

然而，考虑下面一组点，其中一些位于圆心附近，一些位于圆的边缘。如果只使用点积，我们无法有效地区分这两组点。

在这里插入图片描述

这时，高斯核函数就显得非常有用，其可以有效地区分这些点。其相当于将原始数据由二维变换到三维空间中，在三维空间中，变成了线性可分的问题，只需要一个平面就能划分。具体的高斯核函数在3.3节介绍。

在这里插入图片描述

然而，现在面临一个问题：径向基函数不符合点积的形式。在不改变我们对点积形式的基本假设的情况下，如何实现高斯核函数的效果呢？

答案在于将原始的二维数据映射到一个更高维的空间，在这个高维空间中，数据点之间的点积刚好对应于高斯核的形式！
即，总存在一种将原始数据空间映射到更高维空间的方法，这样在更高维空间中，两个数据点的点积就等同于高斯核函数。

2.3 核函数与内核空间定义

如图所示，图1为在当前二维空间下线性不可分的情况，我们将其变换到三维空间，在这个空间中，变为了线性可分问题，如图2所示。这个线性平面，返回到原空间就是一个形状类似椭圆的决策边界（图3），从而找到了原空间的非线性分类边界。

在这里插入图片描述

内核策略（kernel trick）主要用于将非线性问题转化为线性问题。

其基本思想是将输入空间的数据映射到高维特征空间，使得原本在低维空间中不可分的问题在高维空间中变得线性可分。

其核心在于使用核函数（kernel function） 来计算数据点在高维空间中的内积（距离），从而避免了显式地将数据映射到高维空间，大大节省了计算资源。

假设有一个映射函数 $\Phi =\mathcal{X} \to \mathcal{H}$ ，将输入空间 $\mathcal{X}$ 中的数据点映射到特征空间 $\mathcal{H}$ 。

在特征空间中，数据点之间的相似度可以通过内积 $\left \langle \Phi(x),\Phi(y) \right \rangle$ 来度量。

然而，直接计算映射 $\Phi$ 可能是非常昂贵的，尤其是在特征空间维度极高时。

因此，核函数 $\kappa : \mathcal{X} \times \mathcal{X} \to \mathbb{R}$ 定义为： $\kappa(x,y)=\left \langle \Phi(x),\Phi(y) \right \rangle$

它允许我们在不显式地计算 $\Phi(x)$ 的情况下，直接计算映射后数据点的内积。

3. 常用一些核函数

3.1 线性核函数

$\kappa(x,y) = \left \langle x,y \right \rangle$

3.2 多项式核函数

$\kappa(x,y) = (\gamma \left \langle x,y \right \rangle + r)^d$

其中， $\gamma$ 是内积的缩放函数， $r$ 是偏置项， $d$ 是多项式的阶数。

3.3 径向基函数（RBF）/高斯核函数

$\kappa(x,y)=\text{exp}(-\frac{\|x-y\|^2}{2\sigma^2})=\text{exp}(-\gamma \|x-y\|^2)$
其中 $\sigma$ 是宽度参数，决定了高斯核的平滑程度。即 $\gamma$ 参数决定了数据映射到高维空间中的“紧密程度”。参考取值为所有数据距离的中位数。