SVM深入解析：从线性到非线性，从拉格朗日到SMO算法-优快云博客

本文详细介绍了支持向量机（SVM）的核心概念，包括线性SVM中的分类间隔、约束条件和优化问题。通过拉格朗日函数和KKT条件，文章逐步揭示了SVM的求解过程，并引出了对偶问题和SMO算法。此外，还讨论了非线性SVM中核技巧的应用，以及如何通过引入松弛变量来处理不可分数据和防止过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://zhuanlan.zhihu.com/p/41952687

线性SVM

先看下线性可分的二分类问题
在这里插入图片描述
(a)是已有的数据，红色和蓝色分别代表两个不同的类别。数据显然是线性可分的，但是将两类数据点分开的直线显然不止一条。
(b)和©分别给出了两种不同的分类方案，其中黑色实线为分界线，术语称为“决策面”。
每个决策面对应了一个线性分类器。虽然从分类结果上看，两种分类器的效果是相同的。但是他们的性能是有差距的，看下图：
在这里插入图片描述
在”决策面”不变的情况下，我又添加了一个红点（箭头指示）。
可以看到，分类器A依然能很好的分类结果，而分类器B则出现了分类错误。
显然分类器A的”决策面”放置的位置优于分类器B的”决策面”放置的位置，SVM算法也是这么认为的，它的依据就是分类器B的分类间隔比分类器C的分类间隔大。
这里涉及到第一个SVM独有的概念”分类间隔”。
两条虚线之间的垂直距离就是这个最优决策面对应的分类间隔，
拥有最大垂直距离的两条虚线中间的决策面就是SVM要寻找的最优解。
而这个真正的最优解对应的两侧虚线所穿过的样本点，就是SVM中的支持样本点，称为”支持向量”。

（1）”分类间隔”方程

对于一个二维平面的简单例子进行推导。
在这里插入图片描述
在上图，我们能获取以下信息：
1）蓝色星星样本用标签-1表示，红色全员样本用+1样本。
2）左边虚线和右边虚线的方程表达式分别为 wx+b=-1 和 wx+b=1
3）决策面即分类线（红线）的表达式为 wx+b=0
直线表达式参考：https://link.zhihu.com/?target=https%3A//blog.youkuaiyun.com/u011630575/article/details/78916747
我们的最终目标是求解分类线（红线）： wx+b=0 , 而怎么求这个红线，我们的方法是最大化这两根虚线的距离。从而解得w和b。
两条平行线的方程分别为：
在这里插入图片描述
两条平行线的距离d为：

因此，这两根虚线的距离可以表示为

这个d就是”分类间隔”。其中||w||表示w的二范数，求所有元素的平方和，然后再开方。在二维平面的情况下

在这里插入图片描述
范数参考 https://link.zhihu.com/?target=https%3A//baijiahao.baidu.com/s%3Fid%3D1607333156323286278%26wfr%3Dspider%26for%3Dpc
目标是为了找出一个分类效果好的超平面作为分类器。
分类器的好坏的评定依据是分类间隔 d 的大小，即分类间隔 d 越大，我们认为这个超平面的分类效果越好。

（2）约束条件

为了求解 d 的最大值。我们不得不面对如下问题：
如何判断超平面是否将样本点正确分类？
知道相求距离d的最大值，首先需要找到支持向量上的点，怎么在众多的点中选出支持向量上的点呢？
数学语言对他们进行描述。
在这里插入图片描述
这个二维平面上有两种点，我们分别对它们进行标记：
对每个样本点xi加上一个类别标签yi：
$y_i=\left\{\begin{matrix} +1 红色点\\ -1 蓝色点 \end{matrix}\right.$
如果我们的超平面方程能够完全正确地对上图的样本点进行分类，就会满足下面的方程：
$y_i=\left\{\begin{matrix} w^Tx_i+b\geqslant +1,y_i=+1\\w^Tx_i+b\leqslant -1,y_i=-1 \end{matrix}\right.$
上述公式的解释是，
对于所有分类标签为1的样本点，它们到直线的距离都大于等于1(虚线上的样本点到超平面的距离)。
对于所有分类标签为-1的样本点，它们到直线的距离都小于等于1。
上述方程即给出了SVM最优化问题的约束条件。这时候，可能有人会问了，为什么标记为1和-1呢？因为这样标记方便我们将上述方程变成如下形式：
$y_i(w^Tx_i+b)\geqslant 1,i=1,2...$
因为标签为1和-1，才方便我们将约束条件变成一个约束方程，从而方便我们的计算

（3）线性SVM优化问题基本描述

一开始我们的优化目标为最大化两条虚线的距离：
因为，我们只关心虚线上的支持向量点。随后我们求解d的最大化问题变成了||w||的最小化问题。进而||w||的最小化问题等效于
$\frac{2}{||w||}$
这是为了在进行最优化的过程中对目标函数求导时比较方便，但这绝对不影响最优化问题最后的求解。
我们将最终的目标函数和约束条件放在一起进行描述：
$\frac{1}{2}||w||^2$
缩写s.t.表示”Subject to”，是”服从某某条件”的意思。上述公式描述的是一个典型的不等式约束条件下的二次型函数优化问题，同时也是支持向量机的基本数学模型。
$\frac{1}{2}||w||^2\\s.t. y_i(w^Tx_i+b)\geqslant 1,i=1,2,..n$

（4）求解准备

目标函数必须是凸函数。
凸集(convex set)是在凸组合下闭合的放射空间的子集。看一幅图可能更容易理解：
在这里插入图片描述
左右量图都是一个集合。如果集合中任意2个元素连线上的点也在集合中，那么这个集合就是凸集。
显然，左图是一个凸集，右图是一个非凸集。
凸函数的定义
其几何意义表示为函数任意两点连线上的值大于对应自变量处的函数值。若存在某个区间L，设函数f为定义在区间L上的函数，若对L上的任意两点x1，x2和任意的实数λ，λ属于(0,1)，总有：
在这里插入图片描述
则函数f称为L上的凸函数，再看一幅图，也许更容易理解：

左边这样的函数，它是一个凸函数，局部最优即全局最优；
右图是一个非凸函数，容易获得局部最优解。而对于我们的目标函数：
$\frac{1}{2}||w||^2$
显然是一个凸函数。所以，可以使用我接下来讲述的方法求取最优解。
通常我们需要求解的最优化问题有如下几类：
无约束优化问题，可以写为：min f(x)
对于第(a)类的优化问题，尝尝使用的方法就是费马大定理(Fermat)，即使用求取函数f(x)的导数，然后令其为零，可以求得候选最优值，再在这些候选值验证；
如果是凸函数，可以保证是最优解。这也就是我们高中经常使用的求函数的极值的方法。
有等式约束的优化问题，可以写为：
$min f(x)\\s.t. h_{i(x)}=0,i=1,..n$
对于第(b)类的优化问题，常常使用的方法就是拉格朗日乘子法（Lagrange Multiplier) ，即把等式约束h_i(x)用一个系数与f(x)写为一个式子，称为拉格朗日函数，而系数称为拉格朗日乘子。
通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。
有不等式约束的优化问题，可以写为：
在这里插入图片描述
对于第©类的优化问题，常常使用的方法就是KKT条件。同样地，我们把所有的等式、不等式约束与f(x)写为一个式子，也叫拉格朗日函数，系数也称拉格朗日乘子，通过一些条件，可以求出最优值的必要条件，这个条件称为KKT条件。
必要条件和充要条件如果不理解，可以看下面这句话：
A的必要条件就是A可以推出的结论
A的充分条件就是可以推出A的前提
了解到这些，现在让我们再看一下我们的最优化问题：
在这里插入图片描述
现在，我们的这个对优化问题属于哪一类？很显然，它属于第©类问题。因为，在学习求解最优化问题之前，我们还要学习两个东西：拉格朗日函数和KKT条件。

（5）拉格朗日函数

当所有不等式统一成小于号约束时，拉格朗日函数的构建时是用目标函数加上约束方程乘以非负的拉格朗日系数；
当统一成大于号约束时，拉格朗日函数的构建时是用目标函数减去约束方程乘以非负的拉格朗日系数。

拉格朗日对偶问题出现的原因和背景:
我们知道我们要求解的是最小化问题，所以一个直观的想法是如果我能够构造一个函数，使得该函数在可行解区域内与原目标函数完全一致，而在可行解区域外的数值非常大，甚至是无穷大，那么这个没有约束条件的新目标函数的优化问题就与原来有约束条件的原始目标函数的优化问题是等价的问题。
它将约束条件放到目标函数中，从而将有约束优化问题转换为无约束优化问题。

随后，人们又发现，使用拉格朗日获得的函数，使用求导的方法求解依然困难。进而，需要对问题再进行一次转换，即使用一个数学技巧：拉格朗日对偶。
所以，显而易见的是，我们在拉格朗日优化我们的问题这个道路上，需要进行下面二个步骤：

将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数
使用拉格朗日对偶性，将不易求解的优化问题转化为易求解的优化
下面，进行第一步：将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数

公式变形如下：
在这里插入图片描述
其中αi是拉格朗日乘子，αi大于等于0。在约束条件下，上下两个红框的内容是等价的。解释如下：
令：

当样本点不满足约束条件时，即在可行解区域外：

此时，我们将αi设置为正无穷，此时θ(w)为正数-负数，显然也是正无穷 $+\infty$ 。
当样本点满足约束条件时，即在可行解区域内：
在这里插入图片描述
此时，θ(w)减去的后面部分应该趋向于0，应该就为前面部分 $\frac{1}{2}||w||^{2}$ ，即原目标函数本身。
我们将上述两种情况结合一下，就得到了新的目标函数：

此时，再看我们的初衷，就是为了建立一个在可行解区域内与原目标函数相同，在可行解区域外函数值趋近于无穷大的新函数，现在我们做到了。
现在，我们的问题变成了求新目标函数的最小值，即：
在这里插入图片描述
这里用p表示这个问题的最优值，且和最初的问题是等价的。
第二步：将不易求解的优化问题转化为易求解的优化
因为新目标函数这个求解过程不好做。所以，我们需要使用拉格朗日函数对偶性，将最小和最大的位置交换一下，这样就变成了：

常说对偶问题对偶问题，上式就是一个简单的等价变换：原凸规划问题可以转化为先对W和b求偏导，令两个偏导数都等于0消掉W和b，然后再对a求L的最大值。与等式前的意义是相反的，或者说是对偶的！不知我讲到这步，大家是否对对偶问题有了一个豁然开朗的感觉——啊！原来对偶问题就是这啊！！因此，我们的新问题变成了

这个新问题的最优值用d来表示。而且d*<=p*。我们关心的是d=p的时候，这才是我们要的解。需要什么条件才能让d=p呢？
首先必须满足这个优化问题是凸优化问题。
其次，需要满足KKT条件。
接下里，就是探讨是否满足KKT条件了。

KKT条件

我们已经使用拉格朗日函数对我们的目标函数进行了处理，生成了一个新的目标函数。通过一些条件，可以求出最优值的必要条件，这个条件就是接下来要说的KKT条件。一个最优化模型能够表示成下列标准形式：
在这里插入图片描述
那么一个极值优化问题我们转化为：

KKT条件的全称是Karush-Kuhn-Tucker条件，KKT条件是说最优值条件必须满足以下条件：
条件一：经过拉格朗日函数处理之后的新目标函数L(w,b,α,β)分别对α， \beta 求导为零：
条件二：h(x) = 0；
条件三：α*g(x) = 0；
对于我们的优化问题：
在这里插入图片描述
这里的对偶问题需要满足下面形式的KKT条件才能有解：

参考 http://blog.youkuaiyun.com/xianlingmao/article/details/7919597

现在，凸优化问题和KKT都满足了，问题转换成了对偶问题。而求解这个对偶学习问题，即
在这里插入图片描述
可以分为三个步骤：
首先要让L(w,b,α)关于w和b最小化，
然后求对α的极大，
最后利用SMO算法求解对偶问题中的拉格朗日乘子。

（7）对偶问题求解

第一步：
根据上述推导已知：
在这里插入图片描述
首先固定α，要让L(w,b,α)关于w和b最小化，我们分别对w和b偏导数，令其等于0，即：

将上述结果带回函数L(w,b,α)得到：

从上面的最后一个式子，我们可以看出，此时的L(w,b,α)函数只含有一个变量，即αi。
第二步：
现在内侧的最小值求解完成，我们求解外侧的最大值，从上面的式子得到
在这里插入图片描述
现在我们的优化问题变成了如上只包含 $\alpha$ 的形式。
对于这个问题，我们有更高效的优化算法，即序列最小优化（SMO）算法。我们通过这个优化算法能得到α，再根据α，我们就可以求解出w和b，进而求得我们最初的目的：找到超平面，即”决策平面”。

（8）Platt的SMO算法

得到上面只包含α后的表达式怎么求解呢？不难发现这是一个二次规划问题。但如果样本数过多，则计算量过大。1996年代表人物John Platt发布SMO(Sequential Minimal Optimization)序列最小化算法是高效求解这个问题的算法代表。
由于SMO公式推导太复杂，详细推导见
支持向量机原理(四)SMO算法原理 - 刘建平Pinard - 博客园
SMO的基本思路是每次选择两个变量αi和αj,并固定其他参数。这样，在参数初始化后，SMO不断执行如下两个步骤直至收敛：
选取一对需要更新的变量αi和αj
固定αi和αj以外的参数，求解下式获得更新后的αi和αj
在这里插入图片描述
注意到只需要选取的αi和αj中有一个不满足KKT条件，目标函数就会在迭代后减小。KKT条件违背程度越大，则变量更新后可能导致的目标函数值减幅越大。
所以，SMO先选择违背KKT条件程度最大的变量，
第二个变量应选择一个使目标函数值减小最快的变量。SMO使用了一个启发式的方法，当确定了第一个变量后，选择使两个变量对应样本之间最大的变量作为第二个变量。直观来说，更新两个差别很大的变量，比起相似的变量，会带给目标函数更大的变化。。

SMO算法之所以高效，在于在固定其他参数后，仅优化两个参数的过程能非常高效。

仅考虑αi和αj，以下约束
在这里插入图片描述
m为样本个数，可重写为

在固定其他参数以后，消去变量αj，这就是一个关于αi的单变量二次规划问题，仅有的约束也是这个变量 $\geq 0$ ，显然有闭式解。不必再调用数值优化算法。

如何确定偏移项b呢？注意到对任意支持向量（支持向量在虚线上）都有
在这里插入图片描述

即
在这里插入图片描述
其中 $S=（i|\alpha_{i}>0,i=1,2,...,m）$ 为所有支持向量的下标集。理论上，可选取任意支持向量并通过求解上式获得b，但现实任务中常采用一种更鲁棒的做法：使用所有支持向量求解的平均值：

因为

用α的表达式代替w, 分类线的方程为
在这里插入图片描述

四、非线性SVM（引入核技巧）

在前面的讨论中，我们假设数据集是线性可分的。但是现实任务中，可能并不存在一个划分平面将数据集完美得分开。如下图左边：
在这里插入图片描述
这种情况下，我们可以通过将原始空间（2维）映射到一个高维（3维）空间（上图右边），如果高维空间中数据集是线性可分的，那么问题就可以解决了。
这样，超平面变为：

$\phi（x）$ 表示低维空间 x 通过基函数映射到高维后的特征

经过像前面的一顿推导之后我们得到：
在这里插入图片描述
所以非线性的优化函数和线性的函数只是红色部分出现了变化，也就是由原来的 x_{i}^{T}x_{j} 变成了 \phi(x_{i})^{T}\phi(x_{j})

经过一系列同样的推导，模型的最终表达为
在这里插入图片描述
最终表达式也只是红色部分出现了变化，也就是由原来的 $x_{i}^{T}x$ 变成了第2行中的 $\phi(x_{i})^{T}\phi(x)$ ，然后我们看到第2行里的红框部分被第3行里的代替掉了，即 $\phi(x_{i})^{T}\phi(x)= k(x_{i},x)$ 。这里其实就用到了核技巧，即用核函数代替了高维空间的内积运算，其中 $k(\cdot)$ 为核函数。
在很多时候，我们并不知道高维空间是什么样子，也就是我们根本连 $\phi(x_{i})^{T}\phi(x_{j})$ 是什么样子都不知道，更不要说如果高维空间维数很大，计算十分困难。其实 $\phi(x_{i})^{T}\phi(x_{j})$ 只是一个实数，如果将它们看成一个整体，它也是关于 $\phi(x_{i})^{T}\phi(x_{j})$ 的一个函数，所以，如果存在那么一个神奇的函数 $k(x_{i},x_{j})=\phi(x_{i})^{T}\phi(x_{j})$ ，我们就可以在低维空间计算出高维空间的点积结果。这个函数 $k(x_{i},x_{j})$ 就叫做核函数。

举个例子：
如果两类样本不能被线性分开，可以将其从原始空间映射至一个高维空间，使得样本线性可分。如下图所示，样本为二维空间中的四个点，坐标分别为
在这里插入图片描述
其中 Q、W 为一类， E、R 为另一类，可以看出并不能实现线性分类，

通过一个基函数 $\phi（x_{1},x_{2}）=(x_{1}^{2},x_{2}^{2},\sqrt{2}x_{1}x_{2})，$ 映射到三维空间，即有

$\phi（2,-1）=(4,1,-2\sqrt{2})，\phi（2,1）=(4,1,2\sqrt{2})，\phi（-2,2）=(1,4,-2\sqrt{2})，\phi（-1,-2）=(1,4,2\sqrt{2})$
在这里插入图片描述

则映射后的坐标分别为
$\tilde{Q}= (4,1,-2\sqrt{2}) , \tilde{W}= (4,1,2\sqrt{2}) , \tilde{E}=(1,4,-2\sqrt{2}) , \tilde{R}= (1,4,2\sqrt{2})$

从下图可以很明显的看出样本通过映射之后在三维空间中是线性可分的。
空间由低到高的转化存在2个不确定性：一是转换到哪一维；二是基函数 \phi(\cdot) 的具体形式如何确定。核函数可以屏蔽这两个问题，高维空间的点积形式可以写成低维空间中的元素相关运算的形式，例如：
在这里插入图片描述
由以上两个例子可以看出原始样本不管是映射到三维空间还是四维空间，但最后高维空间的点积形式 $(\phi(p_{1},p_{2}),\phi(q_{1},q_{2}))$ ，都等于低维空间中两个点的点积的平方 $p_{1},p_{2}),(q_{1},q_{2}))^{2}$ 。也就是说，我们可以屏蔽空间由低到高的转化存在2个不确定性，即屏蔽 $\phi(\cdot)$ 的具体形式，直接关注核函数在低维空间中的具体计算形式。（注意：基函数是将低维空间映射到高维空间，然后高维空间的内积可以直接由核函数计算）

常用的核函数有：
在这里插入图片描述

五引入松弛变量

现实任务中，可能用上核函数还是不能线性可分。或者即使找到线性可分的超平面，也不能判断是不是过拟合。因此，我们将标准放宽一些，允许SVM模型在某些数据点上“出错”，为此，要引入“软间隔”：
在这里插入图片描述
前面的推导我们要求 $y_i(w^Tx_i+b)\geq 1$
现在，我们将条件放宽： $y_i(w^Tx_i+b)\geq 1-\epsilon_i,i=1,..m$
但同时，我们希望这个 ξi 尽可能小一点，越小不就越接近前面推导的线性可分么。在目标函数中体现这一点，就得到新的优化问题：
在这里插入图片描述
C是衡量我们“放宽力度”的常数。

与前面的推导类似，我们得到新的拉格朗日函数：
在这里插入图片描述
分别令L(ω,b,ξ,α,μ)对ω,b,ξi的导数等于0：

带入拉格朗日函数，得到对偶问题：

KKT条件为

根据这些条件，用SMO算法求解就可以了，只是在求解相关变量的时候注意有新的范围限制。

从另一个角度观察刚开始的那个式子
在这里插入图片描述

我们可以把 $\frac{1}{2}||w||^{2}$ 看成是一个正则化项，也就是结构风险，描述了我们希望模型具有某些性质，也就是引入了先验知识。 $c\sum_{i=1}^{m}{\xi_{i}}$ 项是经验风险，用于描述模型与训练集的契合程度，可以把 $ξ i$ 写成一个更一般的形式： $D(f(x_{i}),y_{i})$ ，上面推导的模型我们可以认为 $D(\cdot)$ 是 hinge损失。表达式如下
在这里插入图片描述
为下图红色虚线

上图横坐标为 $f(x_{i})\cdot y_{i}$ ，纵坐标为损失值。对于Hinge损失而言，当 $f(x_{i})\cdot y_{i}\geq1$ 时， $D(f(x_{i}),y_{i})=0$ ，即没有样本分类错误，损失值为0。
最后值得注意的是，引入松弛变量后，支持向量不仅仅是划分超平面对应的两条虚线上的样本，它还包括那些在虚线内部以及被分错了的样本。比如下图
在这里插入图片描述
上图中红色圆圈和黑色圆圈代表的样本都属于支持向量。