支持向量机——线性可分支持向量机-优快云博客

本文链接：https://blog.youkuaiyun.com/u014630987/article/details/88845317

文章目录

1 线性可分支持向量机
2 函数间隔和几何间隔
3 间隔最大化
4 学习的对偶算法

GitHub
简书
优快云

1 线性可分支持向量机

支持向量机(Support vector machines, SVM)是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，他的学习策略就是间隔最大化，同时该方法可以形式化为一个求解图二次规划。

支持向量机可分为三类:

线性可分支持向量机、硬间隔（hard-margin svm)
线性支持向量机、软间隔(soft-margin svm)
非线性支持向量机、Kernel SVM

支持向量机模型中存在三宝:

间隔
对偶
核技巧

支持向量机和感知机在某些方面很相似，其相同点:

都是二分类模型
都是通过一个分离超平面对特征进行分类

不同点：

SVM 是特殊的感知机
感知机是用误分类最小的策略，求得分离超平面，这时存在无穷个解，感知机利用间隔最大化求得最优分离超平面。如下图所示

在这里插入图片描述
图1 感知机与支持向量机区别

图中的蓝色和黄色圆点分别表示正负样本，对于这个二分类，从图中我们可知，在最上面的黄线和最下面的绿线之间的线条都是可以把训练样本集完全分开的，这就是感知机的原理，通过这些分离超平面把训练集分开，这样的分离超平面存在很多条，比如图中的虚线，从视觉上中间那条实线应该是众多线条中最优的一条，感知机对于学习的分离超平面由于优化算法、学习率等不同因素，会随机地学习到这众多分离超平面中的一条，当学习到的是靠近上下边缘的分离超平面是，对于一个未知样本，当这个样本稍微浮动一下，模型就很可能对他进行误分类了，因此鲁棒性很低，而支持向量机的目标是找到图中中间那条最优的分离超平面。

定义(线性可分支持向量机):给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到一个分离超平面:

$w^* \cdot x + b^* =0 \tag{1}$
即相应的决策模型:

$f(x)=sign(w^* \cdot x + b^*) \tag{2}$
此模型就为线性可分支持向量机。其中 $ w^*$ 表示分离超平面的法向量， $b^*$ 表示截距，位于分离超平面之上的样本为正样本，之下的为负样本。

2 函数间隔和几何间隔

一般来说，一个点到分离超平面的远近可以表示分类预测的确信程度，在给定分离超平面 $\cdot x + b = 0$ 的情况下， $\cdot x + b|$ 能够相对地表示点 $x$ 到分离超平面的远近。同时 $\cdot x + b$ 的符号与类别标记 $y$ 是否保持一致来表示分类是否正确，所以，可以用 $\cdot x + b)$ 来表示分类的正确性及确信度，这就是函数间隔（functional margin)的概念。

定义(函数间隔):对于给定训练数据集 $T$ 和超平面 $(w, b)$ ,定义超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的函数间隔为:

$\hat \gamma_i = y_i(w \cdot x_i + b) \tag{3}$

分离超平面关于训练数据集 $T$ 的函数间隔为超平面关于 $T$ 中所有样本点 $x_i,y_i)$ 的函数间隔最小值:

$\hat \gamma = \min_{i=1...N}y_i(w \cdot x_i + b) \tag{4}$

上述定义是在给定超平面 $(w, b)$ 的时候计算，然而在实际支持向量机的学习过程中，只有函数间隔是不够的，因为当 $w$ 和 $b$ 按比例同时扩大 $n$ 倍，此时函数间隔也扩大 $n$ 倍，而超平面并没有改变。因此我们需要对分离超平面加以约束，如规范化， $∣ ∣ w ∣ ∣ = 1$ ,使得间隔不随 $w$ 和 $b$ 成比例扩大而改变。这时函数间隔就成为了几何间隔（geometric margin)

定义(几何间隔):对于给定训练数据集 $T$ 和超平面 $(w, b)$ ,定义超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的几何间隔为:

$\gamma_i = y_i(\frac{w}{||w||} \cdot x_i + \frac{b}{||w||}) \tag{5}$

分离超平面关于训练数据集 $T$ 的函数间隔为超平面关于 $T$ 中所有样本点 $x_i,y_i)$ 的函数间隔最小值:

$\gamma = \min_{i=1...N} \gamma_i \tag{6}$

$∣ ∣ w ∣ ∣$ 为 $w$ 的 $L_2$ 范数。其实上述公式就是我们中学时候学习的点到直线的距离公式的推广，或者说点到直线的距离公式是该公式在二位平面下的表示。

通过公式4和公式6的比较，我们可以得出函数间隔和几何间隔有如下关系:

$\begin{aligned} \gamma_i =& \frac{\hat \gamma_i}{||w||} \\ \gamma =& \frac{\hat \gamma}{||w||} \end{aligned} \tag{7}$

3 间隔最大化

支持向量机学习的基本思想是求解能够正确划分训练数据集且几何间隔最大的分离超平面。间隔最大化的直观解释是：使分类决策模型以较大的确信度来对数据集分类，同时对离超平面较近的点也有很大的确信度。

因此，最大间隔支持向量机形式化为:

$\begin{aligned} &\max_{w,b}\quad\gamma \\ &s.t. \quad y_i(\frac{w}{||w||} \cdot x_i + \frac{b}{||w||}) \geq\gamma, i=1,2,...,N \end{aligned} \tag{8}$