支持向量机(SVM)

最新推荐文章于 2023-11-10 13:36:20 发布

原创

最新推荐文章于 2023-11-10 13:36:20 发布 · 2.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#SVM #分类问题 #支持向量机

本文深入探讨了支持向量机（SVM）的概念，包括函数间隔与几何间隔，以及它们在分类问题中的作用。SVM旨在找到最大化样本点到决策边界的几何间隔的线性分类器。通过拉格朗日对偶问题和KKT条件，SVM能够解决带约束的优化问题，找到最优分类边界。支持向量是距离分类边界最近的样本，它们在SVM模型中起到关键作用。

（本文介绍什么是SVM，SVM推导公式等。所有内容来自Anrew Ng教程）

SVM（support vector machine）是一种二分类模型，其基本模型定义是期望特征空间上分类间隔最大的线性分类器。

1.1 SVM起源-函数间隔和几何间隔
首先我们考虑，在逻辑回归中（可参见前面逻辑回归章节内容），数据被分类为正样本的概率被表示为 $p(y=1|x;\theta)=h_\theta(x)=g(\theta^Tx)$ 。那么对于一个新样本数据，如果有 $h_\theta(x)\ge0.5$ ，或者说有 $\theta^Tx\ge0$ 时，我们就认为该样本属于“正样本”，拥有标签“1”，相反，则样本属于“负样本”，拥有标签“0”。实际上，如果 $\theta^Tx$ 越大，根据sigmod函特性， $h_\theta(x)=p(y=1|x;\theta)$ 就会越大，说明该样本被分类为“正样本”的把握（概率）越大。所以对于逻辑回归的非正式说法可以表达为：对于给定的若干个训练数据，我们期望求得一个参数 $\theta$ 使得对于“正样本”（ $y^{(i)}=1$ ）有 $\theta^Tx^{(i)} \gg 0$ ，而对于“负样本”（ $y^{(i)}=0$ ）有 $\theta^Tx^{(i)} \ll 0$ ，满足这样条件的参数 $\theta$ 我们才会有更大的把握使得训练集中的样本都被正确归类。这个概念和后文中提到的“函数间隔”是相通的。

从另外一个角度来考虑，观察下图，实线表示样本点分类界面，叉号点表示“正样本”点，“圆圈”点表示“负样本”点。对于图示中的三个点，我们可以说，点A距离决策边界是最远的，如果对A附近的点进行类别预测，我们将有足够的把握说该样本属于“正样本”；而对于样本点C，距离决策边界是最近的，当决策边界稍微发生偏移，将会影响该样本点的类别判定，所以说对于样本点C被分类为“正样本”这件事，我们的把握是很小的；而样本点B距离决策面的距离介于样本点A和样本点C之间，对于该样本点被分类为“正样本”的把握自然介于A和C之间。总结上面的说法，对于给定的训练数据，我们期望寻找一个分界面，使得我们有足够的把握使得所有样本被正确分类，按照上面的推理说法，我们期望所有样本点距离分界面的距离越远越好。这种说法刚好对应于后文提到的“几何间隔”的概念。

这里写图片描述

接下来，我们将函数间隔和几何间隔进行数学描述，在这之前，首先对分类问题的数学表达进行重新描述。

考虑二分类问题，寻找线性分类器 $w^Tx+b=0$ 对数据进行分类，数据标签为 $y \in \{1,-1\}$ 。则分类器模型为(注意在线性回归和逻辑回归中，我们使用的模型参数都是 $\theta$ ，但这里用 $w 和b$ 代替 $\theta$ )，

h w, b (x) = g (w T x + b)

$h_{w,b}(x)=g(w^Tx+b)$
且有，当

z≥0 $z\ge0$ 时有

g(z)=1 $g(z)=1$ ；当

z<0 $z< 0$ 时有

g(z)=−1 $g(z)=-1$ 。与逻辑回归不同的是，这里我们并没有使用sigmod函数，通过分类概率来分析样本的所属类别，而是直接通过符号对类别标签预测为1或者-1。

1.1.1 函数间隔
给定训练集 $S=(x^{(i)},y^{(i)}),i=1,\cdots,m$ ，定义函数间隔为 $\hat{\gamma}^{(i)}=y^{(i)}(w^Tx+b)$ 。当有 $y^{(i)}=1$ 时，如果我们期望函数间隔尽可能大（此时样本被正确分类具有较大把握），就需要使得 $w^T+b$ 为一个较大的正数；类似的，当有 $y^{(i)}=-1$ 时，如果我们期望函数间隔尽可能大，就需要使得 $w^T+b$ 为一个绝对值较大的负数。总而言之，如果有 $y^{(i)}(w^Tx+b)>0$ ，则有所有样本被正确分类，而函数间隔越大，则样本被正确分类的把握越大。