支持向量机SVM

最新推荐文章于 2025-12-23 20:57:50 发布

原创最新推荐文章于 2025-12-23 20:57:50 发布 · 置顶 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

4 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

支持向量机

一.简介

支持向量机（support vector machines）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：
当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；
当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；
当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

二、线性可分支持向量机

给定训练样本集 $D=(x_1,y_1)，(x_2,y_2)，⋯,(x_m,y_m)$ ,其中 $yi∈\{−1,+1\}$ ,分类学习最基本的想法就是基于训练集 $D$ 在样本空间中找到一个划分超平面，将不同类别的样本分开。

直观看上去，能将训练样本分开的划分超平面有很多，但应该去找位于两类训练样本“正中间”的划分超平面，即图中红色的那条，因为该划分超平面对训练样本局部扰动的“容忍”性最好，例如，由于训练集的局限性或者噪声的因素，训练集外的样本可能比图中的训练样本更接近两个类的分隔界，这将使许多划分超平面出现错误。而红色超平面的影响最小，简言之，这个划分超平面所产生的结果是鲁棒性的。

2.1. 那什么是线性可分呢？

如果一个线性函数能够将样本分开，称这些数据样本是线性可分的。那么什么是线性函数呢？其实很简单，在二维空间中就是一条直线，在三维空间中就是一个平面，以此类推，如果不考虑空间维数，这样的线性函数统称为超平面。我们看一个简单的二维空间的例子， $O$ 代表正类， $X$ 代表负类，样本是线性可分的，但是很显然不只有这一条直线可以将样本分开，而是有无数条，我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。

那么我们考虑第一个问题，为什么要间隔最大呢？一般来说，一个点距离分离超平面的远近可以表示分类预测的确信度，如图中的A B两个样本点，B点被预测为正类的确信度要大于A点，所以SVM的目标是寻找一个超平面，使得离超平面较近的异类点之间能有更大的间隔，即不必考虑所有样本点，只需让求得的超平面使得离它近的点间隔最大。
接下来考虑第二个问题，怎么计算间隔？只有计算出了间隔，才能使得间隔最大化。

任意点 $x⃗\vec{x}$ 到超平面 $w^T+b=0$ 的距离： $r=w⃗Tx⃗∣∣w∣∣r=\frac{\vec{w}^T\vec{x}}{||w||}$
对任意 $∀\forall$ 正样本 $(xi⃗,yi)∈D(\vec{x_i},y_i) \in D$ ,有
$w⃗Txi>c\vec{w}^Tx_i>c$ 时， $y_i=1$
$w⃗Txi>c<=>w⃗Txi+b>0<=>w⃗Txi+b>1\vec{w}^Tx_i>c <=>\vec{w}^Tx_i+b>0<=>\vec{w}^Tx_i+b>1$ (因为 $b$ 是常数，为了计算方便写成1)
同理对任意 $∀\forall$ 负样本 $(xi⃗,yi)∈D(\vec{x_i},y_i) \in D$ ,有 $w⃗Txi+b<−1\vec{w}^Tx_i+b<-1$ 时， $y_i=-1$
$\begin{cases} \vec{w}^Tx_i+b\geq1& {y_i=+1}\\ \vec{w}^Tx_i+b \leq-1& {y_i=-1} \end{cases}$
即： $yi(w⃗Txi+b)≥1y_i(\vec{w}^Tx_i+b)\geq1$
其中 $w⃗\vec{w}$ 为法向量，决定了超平面的方向， $b$ 为位移量，决定了超平面与原点的距离。该公式被称为最大间隔假设， $y_i=+1$ 表示样本为正样本， $y_i=−1$ 表示样本为负样本。
距离超平面 $w⃗Txi+b=0\vec{w}^Tx_i+b=0$ 最近的几个点使上式等号成立，他们被称为”支持向量“。虚线称为边界，两条虚线间的距离称为间隔（margin）。

两条平行线间的距离公式： $1−b−(−1−b)∣∣w∣∣=2∣∣w∣∣\frac{1-b-(-1-b)}{||w||} = \frac{2}{||w||}$
两类样本距离最大的因素仅仅和最佳超平面的法向量有关。
至此，我们求得了间隔，SVM的思想是使得间隔最大化，即：
$\begin{cases} \max\text{ }\text{ }\text{ }\text{ } \frac{2}{||w||}\\ st. \text{ }\text{ }\text{ }\text{ }\text{ } y_i(\vec{w}^Tx_i+b) \geq1,i=1,2,...,n \end{cases}（2.1）$

显然，最大化 $2∣∣w∣∣\frac{2}{||w||}$ 相当于最小化 $∣ ∣ w ∣ ∣$ ，为了计算方便，将公式转化成如下公式:
$\begin{cases} \min \text{ } \text{ }\text{ } \frac{1}{2}{||w||^2}\\ st. \text{ }\text{ }\text{ }\text{ }\text{ } y_i(\vec{w}^Tx_i+b) \geq1,i=1,2,...,n \end{cases}（2.2）$
等价于：
$\begin{cases} \min \text{ } \text{ }\text{ } \frac{1}{2}{||w||^2}\\ st. \text{ }\text{ }\text{ }\text{ }\text{ } 1-y_i(\vec{w}^Tx_i+b) \leq0,i=1,2,...,n \end{cases}（2.3）$
该基本型是一个凸二次规划问题，可以采用拉格朗日乘子法对其对偶问题求解，拉格朗日函数：
$L(w⃗,b,α⃗)=12∣∣w∣∣2−∑i=1nαi(yi(w⃗Txi+b)−1),其中α>0（2.4）L(\vec{w},b,\vec{\alpha})=\frac{1}{2}||w||^2-\sum_{i=1}^n\alpha_i(y_i(\vec{w}^Tx_i+b)-1),其中\alpha>0（2.4）$
对 $w, b$ 求导后：
$\begin{cases} \vec{w}=\sum_{i=1}^n \alpha_iy_i\vec{x_i} \\ \sum_{i=1}^n\alpha_iy_i=0 \end{cases}（2.5）$
将上式带入拉格朗日函数中得到：
$\begin{cases} \ L(\vec{w},b,\vec{\alpha})=\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1}^n\sum_{1=1}^n \alpha_i\alpha_jy_iy_j\vec{x_i}\vec{x_j} \\ \sum_{i=1}^n\alpha_iy_i=0\\ \alpha_i\geq0,i=1,2,...,n \end{cases}（2.6）$
原问题就转换为如下关于 $α\alpha$ 的问题：

$\begin{cases} \ max \text{ }\text{ }\text{ }\text{ }\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1}^n\sum_{1=1}^n \alpha_i\alpha_jy_iy_j\vec{x_i}\vec{x_j} \\ \text{ }st.\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\sum_{i=1}^n\alpha_iy_i=0\\ \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\alpha_i\geq0,i=1,2,...,n \end{cases}（2.7）$
由上可知，不关心单个样本如何，只关心样本件两两的成积。
求解出 $αi⃗\vec{\alpha_i}$ 之后，再求解 $w⃗\vec{w}$ 和 $b$ 即可得到SVM模型。
$f(x⃗)=w⃗x⃗+b=∑1=1αiyixi⃗Txi⃗+b（2.8）f(\vec{x}) =\vec{w}\vec{x}+b= \sum_{1=1} \alpha_iy_i\vec{x_i}^T\vec{x_i}+b（2.8）$

2.2.SVM的KKT条件

$\begin{cases} \ min \text{ } f(x) \\ st. \text{ }\text{ }\text{ }h_j(x)=0,j=1,2...,p\\ g_k(x)\leq0,k=1,2,...,q \end{cases}（2.9）$

等价于：
$\begin{cases} \ L(\vec{w},b,\vec{\alpha})对x求导为零 \\ h(x)=0\\ ag(x)=0,a\geq0 \end{cases}（2.10）$
对应的SVM的KKT条件：
$\begin{cases} \ \alpha_i\geq0 \\ y_i(w_i^T\vec{x}+b)-1\geq0,i=1,2,...,n\\ \alpha_iy_i(w_i^T\vec{x}+b-1）=0 \end{cases}（2.11）$
我们分析一下，对于任意的训练样本 $x_i,y_i)$ ，
若 $α_i=0$ ，则其不会在公式（2.8）中的求和项中出现，也就是说，它不影响模型的训练；
若 $α_i>0$ ，则 $y_if(x_i)−1=0$ ，也就是 $y_if(x_i)=1$ ，即该样本一定在边界上，是一个支持向量。
这里显示出了支持向量机的重要特征：当训练完成后，大部分样本都不需要保留，最终模型只与支持向量有关。

三、非线性支持向量机和核函数

对于非线性问题，线性可分支持向量机并不能有效解决，要使用非线性模型才能很好地分类。先看一个例子，如下图，很显然使用直线并不能将两类样本分开，但是可以使用一条椭圆曲线（非线性模型）将它们分开。非线性问题往往不好求解，所以希望能用解线性分类问题的方法求解，因此可以采用非线性变换，将非线性问题变换成线性问题。
在这里插入图片描述
对于这样的问题，可以将训练样本从原始空间映射到一个更高维的空间，使得样本在这个空间中线性可分，如果原始空间维数是有限的，即属性是有限的，那么一定存在一个高维特征空间是样本可分。令ϕ(x)表示将 x 映射后的特征向量，于是在特征空间中，划分超平面所对应的的模型可表示为：
$(3.1)f(x)=\vec{w}^T \phi(x)+b \text{ } \text{ }\text{ } (3.1)$
于是有最小化函数：
$\begin{cases} \min \text{ } \text{ }\text{ } \frac{1}{2}{||w||^2}\\ st. \text{ }\text{ }\text{ }\text{ }\text{ } 1-y_i(\vec{w}^T \phi(x_i)+b) \leq0,i=1,2,...,n \end{cases}（3.2）$
其对偶问题为：
$\begin{cases} \ max \text{ }\text{ }\text{ }\text{ }\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1}^n\sum_{1=1} \alpha_i\alpha_jy_iy_j \phi(x_i)^T \phi(x_j) \\ \text{ }st.\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\sum_{i=1}^N\alpha_iy_i=0\\ \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\alpha_i\geq0,i=1,2,...,n \end{cases}（3.3）$

若要对公式（3.3）求解，会涉及到计算 $ϕ(xi)Tϕ(yi)\phi(x_i)^T \phi(y_i)$ ，这是样本 $x_i$ 和 $x_j$ 映射到特征空间之后的内积，由于特征空间的维数可能很高，甚至是无穷维，因此直接计算 $ϕ(xi)Tϕ(yi)\phi(x_i)^T \phi(y_i)$ 通常是困难的，于是想到这样一个函数：

$(3.4)\kappa(x_i,x_j)=<\phi(x_i),\phi(x_j)>=\phi(x_i)^T \phi(x_j)\text{ }\text{ }\text{ }(3.4)$
即 $x_i$ 和 $x_j$ 在特征空间中的内积等于他们在原始样本空间中通过函数 $κ(xi,xj)\kappa(x_i,x_j)$ 计算的函数值，于是公式（3.3）写成如下：
$\begin{cases} \ max \text{ }\text{ }\text{ }\text{ }\sum_{i=1}^n\alpha_i-\frac{1}{2} \sum_{i=1}^n \alpha_i\alpha_jy_iy_j \kappa(x_i,x_j) \\ \text{ }st.\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\sum_{i=1}^N\alpha_iy_i=0\\ \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\alpha_i\geq0,i=1,2,...,n \end{cases}（3.3）$
求解后得到：
$\begin{aligned} f(x)&={w}^T \phi(x)+b \\ & =\sum_{i=1}^n\alpha_iy_i\phi(x_i)^T \phi(x_j)+b \\ &=\sum_{i=1}^n\alpha_iy_i\kappa(x_i,x_j)+b\end{aligned} \text{ } \text{ }\text{ } (3.4)$
这里的函数 $κ(xi,xj)\kappa(x_i,x_j)$ 就是核函数，在实际应用中，通常人们会从一些常用的核函数里选择（根据样本数据的不同，选择不同的参数，实际上就得到了不同的核函数），下面给出常用的核函数：

线性核：

$κ(xi,xj)=xiTxj\kappa(x_i,x_j)=x_i^Tx_j$

多项式核（d是多项式的次数，d=1是退化为线性核）：
$κ(xi,xj)=(xiTxj)d\kappa(x_i,x_j)=(x_i^Tx_j)^d$
高斯核（ $σ>0\sigma>0$ ）：
$κ(xi,xj)=exp(∣∣xi−xj∣∣22σ2)\kappa(x_i,x_j)=exp(\frac{||x_i-x_j||^2}{2\sigma^2})$
拉普拉斯核（ $σ>0\sigma>0$ ）：
$κ(xi,xj)=exp(∣∣xi−xj∣∣σ)\kappa(x_i,x_j)=exp(\frac{||x_i-x_j||}{\sigma})$
sigmiod核（ $β>0,θ<0\beta>0, \theta<0$ ）：
$κ(xi,xj)=tanh(βxiTxj+θ)\kappa(x_i,x_j)=tanh(\beta x_i^Tx_j+\theta)$

此外，核函数也可以通过组合得到，在此不再赘述。
在这里插入图片描述

四、线性支持向量机（软间隔支持向量机）与松弛变量

4.1、线性支持向量机

在前面的讨论中，我们假设训练样本在样本空间或者特征空间中是线性可分的，但在现实任务中往往很难确定合适的核函数使训练集在特征空间中线性可分，退一步说，即使瞧好找到了这样的核函数使得样本在特征空间中线性可分，也很难判断是不是由于过拟合造成。
线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足间隔大于等于1的条件，样本点落在超平面与边界之间。为解决这一问题，可以对每个样本点引入一个松弛变量 $ξi≥0\xi_i≥0$ ，使得间隔加上松弛变量大于等于1，这样约束条件变为：
$(4.1)y_i(w^Tx_i+b)\geq1-\xi_i \text{ }\text{ }\text{ }(4.1)$

同时，对于每一个松弛变量 $ξ_i≥0$ ，支付一个代价 $ξ_i≥0$ ，目标函数变为

$(4.2)\frac{1}{2}||w||^2+C\sum_{i=1}^m\xi_i\text{ }\text{ }\text{ }(4.2)$

其中 $C > 0$ 为惩罚参数， $C$ 值大时对误分类的惩罚增大， $C$ 值小时对误分类的惩罚减小，公式（4.2）包含两层含义：使 $12∣∣w∣∣2\frac{1}{2}||w||^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量小， $C$ 是调和两者的系数。
有了公式（4.2），可以和线性可分支持向量机一样考虑线性支持向量机的学习过程，此时，线性支持向量机的学习问题变成如下凸二次规划问题的求解（原始问题）：
$\begin{cases} \min \text{ } \text{ }\text{ } \frac{1}{2}{||w||^2} + C \sum_{i=1}^m\xi_i\\ st. \text{ }\text{ }\text{ }\text{ }\text{ } y_i(w^Tx_i+b) \geq1-\xi_i,i=1,2,...,n \end{cases}（4.3）$
2、对偶问题
与线性可分支持向量机的对偶问题解法一致，公式（4.3）的拉格朗日函数为：
$(4.4)L(w,b,\alpha,\xi,\mu)= \frac{1}{2}{||w||^2} + C \sum_{i=1}^m\xi_i+\sum_{i=1}^n\alpha_i(1-\xi_i-y_i(w^Tx_i+b))-\sum_{i=1}^n\mu_i\xi_i\text{ }\text{ }\text{ }(4.4)$
其中 $αi>0,μi≥0\alpha_i>0,\mu_i\geq0$ 是拉格朗日乘子。
令 $L(w,b,α,ξ,μ)L(w,b,\alpha,\xi,\mu)$ 对 $w,b,ξw,b,\xi$ 的偏导数为0可得如下：
$\begin{cases} w=\sum_{i=1}^n \alpha_iy_ix_i \\ \sum_{i=1}^n\alpha_iy_i=0 \\ C=\alpha_i+\mu_i \end{cases}（4.5）$
将公式(4.5)代入公式（4.4）得对偶问题：
$\begin{cases} \ max \text{ }\text{ }\text{ }\text{ }\sum_{i=1}^n \alpha_i-\frac{1}{2} \sum_{i=1}^n\sum_{1=1}^n \alpha_i\alpha_jy_iy_j\vec{x_i}\vec{x_j} \\ \text{ }st.\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\sum_{i=1}^n\alpha_iy_i=0 \text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\alpha_i\geq0,\mu_i\geq0,C=\alpha_i+\mu_i,i=1,2,...,n \end{cases}（4.6）$

解出 $α\alpha$ 之后，根据公式(4.5)可以求得 $w$ ，进而求得 $b$ ，可以得到模型：

$f(x⃗)=wTx+b=∑1=1αiyixiTxi+b（4.7）f(\vec{x}) =w^Tx+b= \sum_{1=1} \alpha_iy_ix_i^Tx_i+b（4.7）$

上述过程的KKT条件为：
$\begin{cases} \ \alpha_i\geq0 \\ y_if(x_i)\geq1-\xi_i\\ \alpha_i(y_if(x_i)-1+\xi_i)=0 \\ \xi_i>0,\mu_i\xi_i=0 \end{cases}（4.8）$
我们分析一下，对于任意的训练样本 $x_i,y_i)$ ，总有 $α_i=0$ 或者 $yif(xi)−1+ξi=0y_if(x_i)-1+\xi_i=0$ ，若 $α_i=0$ ，则其不会在公式（2.8）中的求和项中出现，也就是说，它不影响模型的训练；
若 $α_i>0$ ，必有 $yif(xi)−1+ξi=0y_if(x_i)-1+\xi_i=0$ ，也就是 $yif(xi)=1−ξiy_if(x_i)=1-\xi_i$ ，此时该样本是一个支持向量，由于 $C=αi+μiC=\alpha_i+\mu_i$ ；
若 $α_i<C$ ，则必有 $μi>0\mu_i>0$ ，根据公式（4.8）知 $ξi=0\xi_i=0$ ，即该样本恰好落在最大间隔的边界上；
若 $α_i=C$ ，则 $μi=0\mu_i=0$ ，此时若 $ξi≤1\xi_i\leq1$ ，则该样本在最大间隔的内部；若 $ξi>1\xi_i>1$ 则样本分类错误。

五、总结

至此，关于SVM的三类问题：线性可分支持向量机与硬间隔最大化，非线性支持向量机与核函数，线性支持向量机与软间隔最大化一一介绍完毕。
我们所面对的所有的机器学算法，都是有适用范围的，或者说，我们所有的机器学习算法都是有约束的优化问题。而这些约束，就是我们在推导算法之前所做的假设。
比如：Logistics Regression，在Logistics Regression中，假设后验概率为Logistics 分布；再比如：LDA假设fk(x)是均值不同，方差相同的高斯分布；这些都是我们在推导算法之前所做的假设，也就是算法对数据分布的要求。
而对于SVM而言，它并没有对原始数据的分布做任何的假设，这就是SVM和LDA、Logistics Regression区别最大的地方。这表明SVM模型对数据分布的要求低，那么其适用性自然就会更广一些。如果我们事先对数据的分布没有任何的先验信息，即，不知道是什么分布，那么SVM无疑是比较好的选择。
但是，如果我们已经知道数据满足或者近似满足高斯分布，那么选择LDA得到的结果就会更准确。如果我们已经知道数据满足或者近似满足Logistics 分布，那么选择Logistics Regression就会有更好的效果。

六、python代码实现

from sklearn import svm
import matplotlib.pyplot as plt
import numpy as np

x = [[1, 8], [3, 20], [1, 15], [3, 35], [5, 35], [4, 40], [7, 80], [6, 49]]
y = [1, 1, -1, -1, 1, -1, -1, 1]
# 线性核函数（linear），多项式核函数（poly），高斯核函数（rbf），拉普拉斯核函数（laplace）和Sigmoid核函数
"""
    核函数(这里简单介绍了sklearn中svm的四个核函数，还有precomputed及自定义的)
        
    LinearSVC：主要用于线性可分的情形。参数少，速度快，对于一般数据，分类效果已经很理想
    RBF:主要用于线性不可分的情形。参数多，分类结果非常依赖于参数
    polynomial:多项式函数,degree 表示多项式的程度-----支持非线性分类
    Sigmoid：在生物学中常见的S型的函数，也称为S型生长曲线

    说明2：根据设置的参数不同，得出的分类结果及显示结果也会不同
"""
clf = svm.SVC()  # 默认参数：kernel='rbf'
# clf = svm.LinearSVC() # 其不支持kernel参数，因为设计思想就是线性分类。如果确定数据, 可以进行线性划分，可以选择此函数
clf.fit(x, y)
# 预测
result = clf.predict([[2, 2]])  # 两个方括号表示传入的参数是矩阵而不是list
print("预测结果：", result)

print(np.array(x).reshape(1, -1))
# 根据训练出的模型绘制样本点
for i in x:
    # 我们不知道z的shape属性是多少，
    # #但是想让z变成只有一行，列数不知道多少，
    # #通过`z.reshape(1,-1)`，Numpy自动计算出有16行，
    # 新的数组shape属性为(16, 1)，与原来的(2, 8)配套。
    print("====", np.array(i).reshape(1, -1))
    res = clf.predict(np.array(i).reshape(1, -1))
    if res > 0:
        plt.scatter(i[0], i[1], c='r', marker='*')
    else:
        plt.scatter(i[0], i[1], c='g', marker='*')
# 生成随机实验数据(15行2列)
rdm_arr = np.random.randint(1, 15, size=(15, 2))
# 回执实验数据点
for i in rdm_arr:
    res = clf.predict(np.array(i).reshape(1, -1))
    if res > 0:
        plt.scatter(i[0], i[1], c='r', marker='.')
    else:
        plt.scatter(i[0], i[1], c='g', marker='.')
# 显示绘图结果
plt.show()