支持向量机之线性可分支持向量机_支持向量机主要分为线性可分支持向量机-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42054655/article/details/82733117

本文介绍了支持向量机的基础概念，包括超平面与划分超平面，强调了超平面的数学表达式以及其在分类中的作用。重点讲述了线性可分支持向量机，目标是最大化几何间隔，通过拉格朗日乘子法转换为无约束优化问题，最后提出了对偶问题并简要提及SMO算法。支持向量机的关键在于，最终模型仅与支持向量相关。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

支持向量机是一种分类算法，支持向量机可以分为：线性可分支持向量机、线性支持向量机和非线性支持向量机。
在介绍算法之前，先介绍支持向量机的基础超平面与划分超平面

1 超平面与划分超平面

超平面是n维欧氏空间中余维度等于一的线性子空间，也就是必须是(n-1)维度。这是平面中的直线、空间中的平面之推广（n大于3才被称为“超”平面），是纯粹的数学概念，不是现实的物理概念。因为是子空间，所以超平面一定经过原点。

上面的是百度百科中关于超平面的定义，超平面正确的数学表达式应该为 $\omega^T x=0$ ，其中 $\omega与x$ 都是n维列向量， $x$ 表示超平面上的点， $\omega$ 表示超平面的法向量，决定了超平面的方向。看到不少博客中将超平面的数学形式写为 $\omega^T x+b=0$ ，这显然是不对的，其实这个表达式表示的是支持向量机里的一个划分超平面(又称为仿射超平面)，表达式中的 $b$ 表示超平面与原点的距离。

为了方便直观理解，以三维空间为例。假设 $x, y, z$ 分别表示三维空间里的三个维度，那么三维空间里的一个划分超平面可以表示为 $w_1 x +w_2 y+w_3 z + b =0$ ，这是一个维度为2的平面。当 $b = 0$ ，这表示一个超平面，且这个超平面显然是经过原点的。（想画个图表示的，手艺太差，自行想象吧 ?,这里有三种特殊情况， $x, y, z$ 分别等于0时也是超平面）。

支持向量机里的划分超平面可以将其所在的空间分为两个半空间，划分超平面法向量所指向的那一面称为正面（即 $\omega^T x+b>0$ ），另外一面称为反面即 $\omega^T x+b<0$ ）。可以用这个性质进行分类，通过验证 $\omega^T x+b$ 与样本标签 $y$ 是否同号来判断分类正确与否。

为了便于表示，将划分超平面 $\omega^T x +b$ 称为超平面 $(\omega,b)$ 。定义函数间隔 $\gamma'=y(\omega^T x+b)$ ,函数间隔可以反应对样本点的分类正确与否，但并不能正常反应点到超平面的距离。样本空间中任意一点 $x$ 到超平面 $(w, b)$ 的几何距离可以表示为：
$r=\frac{|w^Tx+b|}{||w||},$
几何距离可以反应点到超平面的距离，但并不能反应分类的正确与否。可以将函数间隔与几何距离相统一，并定义几何间隔
$\gamma=\frac{y(w^Tx+b)}{||w||}=\frac{\gamma'}{||w||},$
显然，几何间隔不仅能反应点到超平面的距离，还可以反应模型对样本点的分类正确与否。

2 线性可分支持向量机

我们可以直接使用上一节中得到的几何间隔作为目标函数，使几何间隔最大，即：
$\textrm{max}\quad\frac{y(w^Tx+b)}{||w||}$
如果有两类样本点分布如下图所示，几何间隔表示两类样本点与分离超平面的距离，称两类样本点中离划分超平面最近的样本点为“支持向量”(support vector), 并且我们令支持向量到划分超平面的函数间隔为1，即 $y(\omega^T x+b)\geq1$ 。
在这里插入图片描述
那么，上面的式子可以转化为：

显然，最大化 $w^{-1}||$ ,等价于最小化 $w^2||$ 。所以，SVM的优化函数也等价于：

上面的目标函数为凸函数，约束条件是仿射的，该问题是一个凸二次规划问题，可以运用拉格朗日函数将上述问题转化为无约束的优化函数，添加拉格朗日乘子 $\alpha_i \geq 0$ , 此时该问题的优化函数转化为：
$L(w,b,\alpha)=\frac{1}{2}||w||^2 + \sum_{i=1}^{m}\alpha_i(1-y_i(w^Tx_i+b))$
令 $L(w,b,\alpha)$ 对 $w$ 和 $b$ 的偏导为0，可得： $w=\sum_{i=1}^m\alpha_iy_ix_i;0=\sum_{i=1}^m\alpha_iy_i$ ;这样就求得了 $w$ 与 $\alpha$ 的函数关系，并将其代回 $L(w,b,\alpha)$ 中,可以消去 $w$ 。
令 $\varphi(\alpha)=\frac{1}{2}||w||^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))$
根据L2范式的性质： $w||_2^2=w^T w$ ,及 $w=\sum_{i=1}^m\alpha_iy_ix_i$ ,上式可以化为：
$\varphi(\alpha)=\frac{1}{2}(\sum_{i=1}^m\alpha_iy_ix_i)^T\sum_{i=1}^m\alpha_iy_ix_i+\sum_{i=1}^m\alpha_i-(\sum_{i=1}^m\alpha_iy_ix_i)^T\sum_{i=1}^m\alpha_iy_ix_i-b\sum_{i=1}^m\alpha_i y_i$
$\varphi(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\alpha_iy_ix_i^T\sum_{i=1}^m\alpha_iy_ix_i-b\sum_{i=1}^m\alpha_i y_i$
又由于 $0=\sum_{i=1}^m\alpha_iy_i$ ,所以：
$\varphi(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\alpha_iy_ix_i^T\sum_{i=1}^m\alpha_iy_ix_i$
$\varphi(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1，j=1}^m\alpha_i \alpha_j y_i y_j x_i^T x_j$
对 $\varphi(\alpha)$ 求极大化的数学形式可以表达为：
$\max \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1，j=1}^m\alpha_i \alpha_j y_i y_j x_i^T x_j$
$\textrm{s.t.}\sum_{i=1}^m=0\quad i=1,2,...m$
$\alpha_i\geq0,i=1,2,...m$
该问题是SVM问题的对偶问题，通过求出对应的 $\alpha$ ,进而可以求出 $w 和 b$ ，就可得到最终的分类决策函数：
$f(x)=sign(\sum_{i=1}^m\alpha_iy_ix_i^Tx_i +b)$
具体求解 $\alpha$ ，通常使用的是SMO算法，该算法知识参加西瓜书。
由于原函数是凸函数，满足KKT条件，具体为：
在这里插入图片描述
每一个 $\alpha_i$ 对应着训练样本 $x_i,y_i)$ ，总有 $\alpha_i=0或y_if(x_i)=1$
我们可以推出支持向量机的一个重要性质：机器学习最终模型仅与支持向量有关。