机器学习算法（4）——SVM算法（SMO 算法的推导与实现）

最新推荐文章于 2025-05-22 16:40:19 发布

ChaucerG

最新推荐文章于 2025-05-22 16:40:19 发布

阅读量1.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法文章标签：机器学习算法

本文链接：https://blog.youkuaiyun.com/qq_24819773/article/details/86513166

机器学习算法专栏收录该内容

14 篇文章

订阅专栏

本文深入解析支持向量机(SVM)及其优化算法SMO的原理与实践，涵盖线性与非线性分类，函数间隔与几何间隔概念，以及SMO算法的Python实现细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.简介

2.分类

2.1、线性可分支持向量机（也称为硬间隔支持向量机）

2.2、线性支持向量机（也称为软间隔支持向量机）

2.5.1、线性可分支持向量机学习算法——最大间隔法

2.5.2、线性可分支持向量机学习算法

2.5.3、线性支持向量机学习算法

2.5.4、非线性支持向量机学习算法（核函数）

3.序列最小最优化算法——SMO 算法

3.1、SMO 算法的第一部分——2个变量二次规划的求解方法

3.2、SMO的第二部分——变量的选择方法

1.简介

支持向量机是一种基于分类边界的方法。其基本原理是（以二维数据为例）：如果训练数据分布在二维平面上的点，它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是，通过训练，找到这些分类之间的边界（直线的――称为线性划分，曲线的――称为非线性划分）。对于多维数据（如 N 维），可以将它们视为 N 维空间中的点，而分类边界就是 N 维空间中的面，称为超面（超面比 N维空间少一维）。线性分类器使用超平面类型的边界，非线性分类器使用超曲面。
支持向量机的原理：是将低维空间的点映射到高维空间，使它们成为线性可分，再使用线性划分的原理来判断分类边界。在高维空间中是一种线性划分，而在原有的数据空间中，是一种非线性划分。SVM 在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。

2.分类

2.1、线性可分支持向量机（也称为硬间隔支持向量机）

当训练数据集可分时，通过硬间隔最大化，学得一个线性可分支持向量机。

2.2、线性支持向量机（也称为软间隔支持向量机）

当训练数据集近似线性可分时，通过软间隔最大化学得一个线性支持向量机。

2.3、非线性支持向量机

当训练数据集不可分时，通过使用核技巧以及软间隔最大化，学得一个非线性支持向量机。

2.4、函数间隔与几何间隔

2.4.1、函数间隔

2.4.2、几何间隔

2.4.3、函数间隔与几何间隔的关系

2.5、几类支持向量机的算法

2.5.1、线性可分支持向量机学习算法——最大间隔法

2.5.2、线性可分支持向量机学习算法

2.5.3、线性支持向量机学习算法

2.5.4、非线性支持向量机学习算法（核函数）

3.序列最小最优化算法——SMO 算法

3.1、SMO 算法的第一部分——2个变量二次规划的求解方法

3.2、SMO的第二部分——变量的选择方法

SMO 算法在每个子问题中选择2个变量优化，其中至少一个变量是违反KKT条件的。

<1>、第一个变量的选择

SMO 称选择第1个变量的过程中是外层循环；

外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第一个变量，

具体地，检验样本点（xi, yi）是否满足KKT条件：

$\alpha_i=0,<=>y_ig(x_i)\geq 1$

$0<\alpha<C,<=>y_ig(x_i)=1$

$\alpha_i=C,<=>y_ig(x_i)\leqslant 1$

其中，

$g(x_i)=\sum_{i=1}^{N} \alpha_j y_j K(x_i,x_j)+b$

该检验是在允许范围内进行的，在检验过程中，外层循环首先遍历所有满足条件的样本点，即在间隔边界上的支持向量点，检验他们是否满足KKT条件，那么遍历整个训练数据集，检验他们是否满足KKT条件。

<2>、第一个变量的选择

SMO 称选择第2个变量的过程中是内层循环；

假设在外层循环中已经找到了第一个变量，现在要在内层循环中找到第二个变量，第二个变量的选择是变量

必须有足够的变化。