支持向量机（SVM）和python实现（一）

最新推荐文章于 2025-07-26 16:18:46 发布

原创最新推荐文章于 2025-07-26 16:18:46 发布 · 8.6k 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#SVM #对偶问题 #KKT条件 #核函数

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文深入解析SVM算法核心，阐述线性可分情形下的最优超平面寻获，及如何利用核函数处理非线性分类问题，涵盖对偶问题、KKT条件与常见核函数介绍。

1. 问题的提出

若存在一个样本集，其中有两类数据，我们希望将他们分类

像上图(a)那样的样本集，SVM的目的就是企图获得一个超平面（在这个例子中超平面是一个直线），这个超平面可以完美的分割不同的数据集，我们用下面的线性方程来表示这个超平面：
$ωTx+b=0\mathbf{\omega ^{T}x}+b=0$
对于二维空间的超平面，实际上就是：
$[w1w2][xy]+b=0\begin{bmatrix} w1 & w2 \end{bmatrix} \begin{bmatrix} x\\ y \end{bmatrix} +b=0$
我们再观察图(b)和©的两个直线，很明显b中的直线对样本集的划分更好一些，因为，在直线边缘的样本点离直线更远一些，这样就提高了样本划分的鲁棒性，所以我们就有了一个寻找超平面的最开始的理念：找到的这个超平面要离2组样本集尽量的远，即点到超平面的距离尽量大。
这里直接给出点到超平面的距离：
$d=∣ωTx+b∣∥ω∥d=\frac{\left | \omega ^{T}\mathbf{x}+b \right |}{\left \| \omega \right \|}$
我们现在再给出样本的类别标签，红色点为-1，蓝色点为1，则有：
${ωTxi+b>0yi=1ωTxi+b<0yi=−1\left\{\begin{matrix} \omega ^{T}\mathbf{x_{i}}+b>0 & y_{i}=1\\ \omega ^{T}\mathbf{x_{i}}+b<0 & y_{i}=-1 \end{matrix}\right.$
如果我们要求再高一些，我们希望这些点到超平面的距离都要大于d，则有：
${(ωTxi+b)/∥ω∥≥dyi=1(ωTxi+b)/∥ω∥≤dyi=−1\left\{\begin{matrix} (\omega ^{T}\mathbf{x_{i}}+b)/\left \| \omega \right \|\geq d & y_{i}=1\\ (\omega ^{T}\mathbf{x_{i}}+b)/\left \| \omega \right \|\leq d & y_{i}=-1 \end{matrix}\right.$
不等式两边同时除以d，可以得到：
${ωdTxi+bd≥1yi=1ωdTxi+bd≤−1yi=−1\left\{\begin{matrix} \omega_{d} ^{T}\mathbf{x_{i}}+b_{d}\geq 1 & y_{i}=1\\ \omega_{d} ^{T}\mathbf{x_{i}}+b_{d}\leq -1 & y_{i}=-1 \end{matrix}\right.$
其中
$ωd=ω∥ω∥d,bd=b∥ω∥d\omega _{d}=\frac{\omega }{\left \| \omega \right \|d}, b_{d}=\frac{b}{\left \| \omega \right \|d}$
实际上 $ωdTxi+bd=0\omega_{d} ^{T}\mathbf{x_{i}}+b_{d}=0$ 和 $ωTxi+b=0\omega ^{T}\mathbf{x_{i}}+b=0$ 是同样的超平面，既然如此我们就把 $ωd\omega _{d}$ 和 $ b_{d}$继续叫做 $ω\omega$ 和 $b$ ，那么我们就获得了SVM优化问题的约束条件:
${ωTxi+b≥1yi=1ωTxi+b≤−1yi=−1(1.1)\left\{\begin{matrix} \omega ^{T}\mathbf{x_{i}}+b\geq 1 & y_{i}=1\\ \omega ^{T}\mathbf{x_{i}}+b\leq -1 & y_{i}=-1 \end{matrix}\right. \tag{1.1}$

(图片来自https://www.cnblogs.com/freebird92/p/8909546.html)

如上图所示的距离超平面最近的几个训练样本点使(1.1)中的等号成立，这些点我们称为“支持向量”，两个异类支持向量到超平面的距离之和为 $2∥ω∥\frac{2}{\left \| \omega \right \|}$ ，我们希望这个值越大越好，即 $12∥ω∥2\frac{1}{2}\left \| \omega \right \|^{2}$ 越小越好，所以我们的问题就变成了：
$\frac{1}{2}\left \| \omega \right \|^{2} \\s.t.\ y_{i}(\omega ^{T}\mathbf{x_{i}}+b)\geq 1,\quad i=1,2,...,m.\tag{1.2}$

2. 对偶问题##

式(1.2)是一个凸二次规划问题，我们可以使用拉格朗日乘子法获取其对偶问题来求解，引入拉格朗日乘子 $αi≥0i=1,2,...,m\alpha _{i}\geq 0 \quad i=1,2,...,m$ ,则式(1.2)写为：
$L(ω,b,α)=12∥ω∥2+∑i=1mαi(1−yi(ωTxi+b))(2.1)L(\omega ,b,\mathbf{\alpha })=\frac{1}{2}\left \| \omega \right \|^{2}+\sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\omega ^{T}x_{i}+b))\tag{2.1}$
对 $ω\omega$ ，b求偏导为0可得：
$ω=∑i=1mαiyixi0=∑i=1mαiyi(2.2)\omega =\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}} \qquad 0=\sum_{i=1}^{m}\alpha _{i}y_{i}\tag{2.2}$
将(2.2)带入(2.1)可得：
$L(\omega ,b,\mathbf{\alpha })=\frac{1}{2}\left \| \omega \right \|^{2}+\sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\omega ^{T}x_{i}+b))\\ =\frac{1}{2}\omega ^{T}\omega -\omega ^{T}\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}}+\sum_{i=1}^{m}\alpha _{i}-\sum_{i=1}^{m}\alpha _{i}y_{i}b\\ =\frac{1}{2}\omega ^{T}(\omega -2\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}})+\sum_{i=1}^{m}\alpha _{i}\\ =\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\mathbf{x_{i}^{T}x_{j}} \tag{2.3}$
最后的对偶问题为：
$\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\mathbf{x_{i}^{T}x_{j}}\\ s.t.\ \alpha _{i}\geq 0 \quad \sum_{i=1}^{m}\alpha _{i}y_{i}\tag{2.4}$
解出 $α\alpha$ 后求出 $ω\omega$ 和b就可以得到模型：
$f(x)=ωTx+b=∑i=1mαiyixix+b(2.5)f(\mathbf{x})=\omega ^{T}\mathbf{x}+b\\ =\sum_{i=1}^{m}\alpha _{i}y_{i}\mathbf{x_{i}x}+b \tag{2.5}$
因为式(1.2)含有不等式约束，因此对偶问题应满足KKT条件，这里稍微说一下KKT条件怎么获得的。

KKT条件

（图来自https://zhuanlan.zhihu.com/p/24638007）

不等式约束 $g(x)≤0g(x)\leq0$ 即为图中的可行解区域，最优解 $x^{*} $的位置有两种情况：在可行区域边界上或者在可行区域内部。
**在边界上：**这种情况下 $g (x) = 0$ ，目标函数 $f (x)$ 在可行解区域边缘更大，可行解区域其他地方更小，而 $g (x)$ 在可行解区域内小于0，外部大于0，意味着 $f (x)$ 的梯度方向与约束条件函数 $g (x)$ 的梯度方向相反，则在最优解处满足下式：
$∇f(x∗)+λ∇g(x∗)=0\nabla f(\mathbf{x^{*}})+\lambda \nabla g(\mathbf{x^{*}})=0$
根据上式可以推出当最优解在边界上时 $λ>0\lambda >0$
**在区域内：**这种情况相当于约束条件不存在，因此拉格朗日乘子 $λ=0\lambda =0$ ， $g (x) < 0$
这样就得出了KKT条件
${g(x)≤0λ≥0λg(x)=0\left\{\begin{matrix} g(\mathbf{x})\leq 0\\ \lambda \geq 0\\ \lambda g(\mathbf{x})=0 \end{matrix}\right.$
其中第一个式子是约束本身，第二个式子是对拉格朗日乘子的描述，第三个式子是综合上述2种情况后获得的表达。

现在我们再回到之前的对偶问题中，(2.4）需要满足的KKT条件为：
${αi≥0yif(xi)−1≥0αi(yif(xi)−1)=0\left\{\begin{matrix} \alpha _{i}\geq 0\\ y_{i}f(\mathbf{x_{i}})-1\geq 0\\ \alpha _{i}(y_{i}f(\mathbf{x_{i}})-1)=0 \end{matrix}\right.$
于是，对于任意训练样本，总有 $αi=0\alpha _{i}= 0$ 或 $yif(xi)=1y_{i}f(\mathbf{x_{i}})=1$ ，当 $αi=0\alpha _{i}= 0$ 时，该样本不会对目标函数产生影响，若 $αi>0\alpha _{i}> 0$ ，则必有 $yif(xi)=1y_{i}f(\mathbf{x_{i}})=1$ ，此时对应样本位于最大间隔边界上，是一个支持向量。

##3. 核函数##
前面我们举的例子都是线性可分的，如果找不到一条直线将两个数据集分离的时候该怎么办呢？
这里写图片描述
（图片来自http://www.360doc.com/content/14/0526/16/10724725_381159791.shtml）
对于这样的问题，我们可以通过将样本点从原始空间映射到一个更高维的特征空间，使在这个新的特征空间内，样本点变得线性可分，就像上图描述的那样，我们用 $φ(x)\varphi (\textbf{x})$ 来表示将x映射后的特征向量，于是我们就可以将模型写为：
$f(x)=ωTφ(x)+b=∑i=1mαiyiφ(x)Tφ(xi)+b(3.1)f(\mathbf{x})=\omega ^{T}\varphi (\textbf{x})+b\\ =\sum_{i=1}^{m}\alpha _{i}y_{i}\varphi (\textbf{x})^{T}\varphi (\mathbf{x_{i}})+b \tag{3.1}$
对偶问题也描述为：
$\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\varphi (\textbf{x}_{i})^{T}\varphi (\mathbf{x_{j}})\\ s.t.\ \alpha _{i}\geq 0 \quad \sum_{i=1}^{m}\alpha _{i}y_{i}\tag{3.2}$
求解(3.2)涉及到计算 $φ(xi)Tφ(xj)\varphi (\textbf{x}_{i})^{T}\varphi (\mathbf{x_{j}})$ 考虑到样本x映射到特征空间后维数可能很高，因此直接计算 $φ(xi)Tφ(xj)\varphi (\textbf{x}_{i})^{T}\varphi (\mathbf{x_{j}})$ 是很困难的，为了避免这种情况，我们引入下面这样的函数：
$κij=κ(xi,xj)=⟨φ(xi),φ(xj)⟩=φ(xi)Tφ(xj)\kappa _{ij}=\kappa (\mathbf{x_{i},x_{j}})=\left \langle \varphi (\mathbf{x_{i}}),\varphi (\mathbf{x_{j}}) \right \rangle=\varphi (\mathbf{x_{i}})^{T}\varphi (\mathbf{x_{j}})$
即 $xi\mathbf{x_{i}}$ 和 $xj\mathbf{x_{j}}$ 在特征空间的内积等于他们在原始样本空间中通过函数 $κ(xi,xj)\kappa (\mathbf{x_{i},x_{j}})$ 计算的结果，于是式(3.2)就可以重新写为：
$\sum_{i=1}^{m}\alpha _{i}-\frac{1}{2}\sum_{i=1,j=1}^{m}\alpha _{i}\alpha _{j}y_{i}y_{j}\kappa _{ij}\\ s.t.\ \alpha _{i}\geq 0 \quad \sum_{i=1}^{m}\alpha _{i}y_{i}\tag{3.3}$
式(3.1)重写为：
$f(x)=ωTφ(x)+b=∑i=1mαiyiκ(xi,x)+b(3.4)f(\mathbf{x})=\omega ^{T}\varphi (\textbf{x})+b\\ =\sum_{i=1}^{m}\alpha _{i}y_{i}\kappa (\mathbf{x_{i},x})+b\tag{3.4}$
这里的 $κ(xi,xj)\kappa (\mathbf{x_{i},x_{j}})$ 就是核函数，显然，如果已知合适的 $φ(x)\varphi (\mathbf{x})$ ，我们很容易就可以写出核函数 $κ(xi,xj)\kappa (\mathbf{x_{i},x_{j}})$ ，但是在一个任务中我们通常都不知道 $φ(x)\varphi (\mathbf{x})$ 是什么形式的，那么我们该怎么取核函数呢？

令 $χ\chi$ 为输入空间， $κ(xi,xj)\kappa (\mathbf{x_{i},x_{j}})$ 是定义在 $χ×χ\chi \times \chi$ 上的对称函数，则 $κ\kappa$ 是核函数当且仅当对于任意数据 $D={x1,x2,...,xm}D=\left \{ \mathbf{x_{1},x_{2},...,x_{m}} \right \}$ ，“核矩阵”K总是半正定的：
$K=[κ(x1,x1)...κ(x1,xj)...κ(x1,xm)...............κ(xi,x1)...κ(xi,xj)...κ(xi,xm)...............κ(xm,x1)...κ(xm,xj)...κ(xm,xm)]K=\begin{bmatrix} \kappa (\mathbf{x_{1},x_{1}}) & ... & \kappa (\mathbf{x_{1},x_{j}}) & ... & \kappa (\mathbf{x_{1},x_{m}})\\ ... & ... & ... & ... & ...\\ \kappa (\mathbf{x_{i},x_{1}}) & ... & \kappa (\mathbf{x_{i},x_{j}}) & ... & \kappa (\mathbf{x_{i},x_{m}})\\ ... & ... & ... & ... & ...\\ \kappa (\mathbf{x_{m},x_{1}}) & ... & \kappa (\mathbf{x_{m},x_{j}}) & ... & \kappa (\mathbf{x_{m},x_{m}}) \end{bmatrix}$

只要一个对称函数所对应的核矩阵半正定，他就能作为核函数使用，实际上，对于一个半正定核矩阵，总能找到一个与之对应的映射$\varphi $，换言之，任何一个核函数都隐式地定义了一个称为“再生和希尔伯特空间”的特征空间。前面说过，我们希望选取合适的核函数使样本在新特征空间内线性可分，因此特征空间的好坏对SVM的性能至关重要，下面给出一些常用的核函数：

线性核： $κij=κ(xi,xj)=xiTxj\kappa _{ij}= \kappa (\mathbf{x_{i},x_{j}})=\mathbf{x_{i}^{T}x_{j}}$
多项式核： $κij=κ(xi,xj)=(xiTxj)d\kappa _{ij}= \kappa (\mathbf{x_{i},x_{j}})=\left (\mathbf{x_{i}^{T}x_{j}} \right )^{d}$
高斯核： $κij=κ(xi,xj)=exp(−∥xi−xj∥22σ2)\kappa _{ij}= \kappa (\mathbf{x_{i},x_{j}})= exp\left ( -\frac{\left \| \mathbf{x_{i}-x_{j}} \right \|^{2}}{2\sigma ^{2}} \right )$
拉普拉斯核： $κij=κ(xi,xj)=exp(−∥xi−xj∥σ)\kappa _{ij}= \kappa (\mathbf{x_{i},x_{j}})= exp\left ( -\frac{\left \| \mathbf{x_{i}-x_{j}} \right \|}{\sigma } \right )$
Sigmoid核： $κij=κ(xi,xj)=tanh(βxiTxj+θ)\kappa _{ij}= \kappa (\mathbf{x_{i},x_{j}})= tanh(\beta \mathbf{x_{i}^{T}x_{j}}+\theta )$

此外，还可以通过函数组合得到核函数：

存在2个核函数 $κ1\kappa _{1}$ 和 $κ2\kappa _{2}$ ，他们的线性组合 $aκ1+bκ2a\kappa _{1}+b\kappa _{2}$ 也是核函数
存在2个核函数 $κ1\kappa _{1}$ 和 $κ2\kappa _{2}$ ，他们的直积 $κ1⊗κ2\kappa _{1}\otimes \kappa _{2}$ 也是核函数
存在核函数 $κ1\kappa _{1}$ ，对于任意函数 $g(x)g(\mathbf{x})$ , $κ=g(x)κ1g(x)\kappa =g(\mathbf{x})\kappa _{1}g(\mathbf{x})$ 也是核函数

###传送门###
支持向量机（SVM）和python实现（二）https://blog.youkuaiyun.com/z962013489/article/details/82559626
支持向量机（SVM）和python实现（三）https://blog.youkuaiyun.com/z962013489/article/details/82622036