第七章支持向量机（三）非线性支持向量机与核函数

最新推荐文章于 2024-12-26 11:12:56 发布

原创最新推荐文章于 2024-12-26 11:12:56 发布 · 892 阅读

1 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

12 篇文章

订阅专栏

本文介绍了非线性支持向量机的基本原理及核函数的应用，详细解释了如何通过映射函数将非线性分类问题转换为线性分类问题，并给出了常用的核函数类型及其特性。

非线性支持向量机与核函数

一、非线性分类

非线性分类问题指的是通过利用非线性模型才能很好地进行分类的问题。
用线性分类方法求解非线性分类问题的一般思想
先使用一个变换将原空间的数据映射到新空间，
然后在新空间里用线性分类学习方法。

二、核函数的引入

设 $X$ 是输入空间， $H$ 为特征空间，如果存在一个从 $X$ 到 $H$ 的映射

ϕ (x) : X \to H

$\phi(x):X \rightarrow H$
使得对所有的

x,z∈Xx,z∈X $x,z\in X$ ,函数

K(x,z)K(x,z) $K(x,z)$ 满足条件

K (x, z) = ϕ (x) \cdot ϕ (z)

$K(x,z)=\phi(x)\centerdot\phi(z)$
则称

K(x,z)K(x,z) $K(x,z)$ 为核函数，

ϕ(x)ϕ(x) $\phi(x)$ 为映射函数。
线性SVM的对偶问题

m a x α - 1 2 \sum i = 1 n \sum j = 1 n α i α j y i y j (x i \cdot x j) + \sum i = 1 n α i

$\mathop {max}_{\alpha}\quad -\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j(x_i\centerdot x_j)+\sum_{i=1}^n\alpha_i$

s . t . \sum i = 1 n α i y i = 0

$s.t. \quad \sum_{i=1}^n\alpha_iy_i=0$

0 \leq α i \leq C, i = 1, 2, . . . n

$0 \le \alpha_i\le C, \quad i=1,2,...n$
KKT条件得到的原始问题的解为

w * = \sum i α * i y i x i

$w^* = \sum_{i}\alpha_i^*y_ix_i$

b * = y j - \sum i = 1 n α * i y i (x i \cdot x j)

$b^* = y_j-\sum_{i=1}^n\alpha_i^*y_i(x_i\centerdot x_j)$
分类决策函数

f (x) = s i g n (\sum i α * i y i (x i \cdot x) + b *)

$f(x) = sign( \sum_{i}\alpha_i^*y_i(x_i\centerdot x)+b^*)$
目标函数和分类决策函数都只涉及输入实例与实例之间的内积，将内积用核函数替换就得到非线性SVM。

m a x α - 1 2 \sum i = 1 n \sum j = 1 n α i α j y i y j K (x i, x j) + \sum i = 1 n α i (1)

$\mathop {max}_{\alpha}\quad -\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(x_i, x_j)+\sum_{i=1}^n\alpha_i \tag{1}$

s . t . \sum i = 1 n α i y i = 0 (2)

$s.t. \quad \sum_{i=1}^n\alpha_iy_i=0 \tag{2}$

0 \leq α i \leq C, i = 1, 2, . . . n (3)

$0 \le \alpha_i\le C, \quad i=1,2,...n \tag{3}$

f (x) = s i g n (\sum i α * i y i ϕ (x i) \cdot ϕ (x) + b *) = s i g n (\sum i α * i y i K (x i, x) + b *) (4)

$f(x) = sign( \sum_{i}\alpha_i^*y_i\phi(x_i)\centerdot \phi(x)+b^*)=sign( \sum_{i}\alpha_i^*y_iK(x_i,x)+b^*)\tag{4}$

这等价于经过映射函数将原来的输入空间变换到一个新的特征空间，将输入空间中的内积

xi⋅xjxi⋅xj $x_i\centerdot x_j$ 变换为特征空间中的内积

ϕ(xi)ϕ(xj)ϕ(xi)ϕ(xj) $\phi(x_i)\phi(x_j)$ ,在新的特征空间中学习线性支持向量机。
学习是隐式地在特征空间中进行，不需要显式地定义特征空间和映射函数。

三、核函数的介绍

对于从低维到高维的映射，核函数不止一个。那么什么样的函数才可以当做核函数呢？
通常我们说的核函数就是正定核函数。
定理（正定核的充要条件）设 $K: X \times X \rightarrow R$ 是对称函数，则 $K(x,z)$ 为正定核函数的充要条件是对任意 $x_i \in X,i=1,2,...m$ , $K(x,z)$ 对应的Gram矩阵