支持向量机SVM简介

原创

已于 2023-12-08 15:08:05 修改 · 3.9k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #svm

于 2021-08-14 22:23:28 首次发布

1. 定义及原理

SVM是一种二分类模型，是定义在特征空间上的间隔最大化(分离超平面)的线性分类器，（间隔最大使它有别于感知机）。

1.1 SVM适合处理什么样的数据？

适合小样本(非线性、高维模式)学习。高维稀疏、样本少（参数只与sv有关，数量少，所以需要的样本少，由于参数跟维度没有关系，所以可以处理高维问题）。

1.2 原理

模型 ----->   分离超平面；    $w^{*}\cdot x+b^{*}=0$

策略 ----->   间隔最大化；(分类决策函数： $f(x)=sign(w^{*}\cdot x+b^{*})$ )

学习算法 ----->   凸二次规划；

（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器(线性可分SVM)。

（2）当训练样本近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器(线性SVM)。

（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性SVM。

1.3 函数间隔

因为一个点距离分离超平面的远近 $\left | w\cdot x+b \right |$ 可以表示分类预测的确信程度，而 $w\cdot x+b$ 的符号与类标记y的符号是否一致能够表示分类是否正确，所以可用 $y(w\cdot +b)$ 来表示分类的正确性及确信度，即函数间隔 $\widehat{\gamma }=min y_{i}(w\cdot x_{i}+b)$ 。

1.4 几何间隔

又因为成比例地改变w和b，函数间隔也将以相应比例变化，这时对w规范化，使 $\left \| w \right \|=1$ ，使得间隔是确定的，此时即几何间隔：

$\gamma =\frac{\widehat{\gamma }}{\left \| w \right \|}=\min_{i=1,...,N} y_{i}(\frac{w}{\left \| w \right \|}\cdot x_{i}+\frac{b}{\left \| w \right \|})$

2. 间隔最大化

2.1 SVM的基本思想

学习策略：间隔最大化，即求解能够正确划分训练数据集且几何间隔最大的分离超平面。

$\left\{\begin{matrix} \underset{w,b}{max} \gamma \\ s.t. y_{i}(\frac{w}{\left \| w \right \|}\cdot x_{i}+\frac{b}{\left \| w \right \|})\geq \gamma \end{matrix}\right.$

几何间隔--->函数间隔

$\left\{\begin{matrix} \underset{w,b}{max} \frac{\widehat{\gamma }}{\left \| w \right \|} \\ s.t. y_{i}(w\cdot x_{i}+b)\geq \widehat{\gamma } \end{matrix}\right.$