SVM最大间隔超平面学习笔记及对函数间隔设置为1的思考

最新推荐文章于 2025-04-17 09:00:00 发布

置顶

肚子请不要饿

最新推荐文章于 2025-04-17 09:00:00 发布

阅读量2.2k

点赞数 9

分类专栏：支持向量机文章标签：支持向量机分类算法机器学习

本文链接：https://blog.youkuaiyun.com/weixin_44027401/article/details/106464532

版权

本文深入探讨支持向量机（SVM）中的最大间隔超平面概念，解释如何找到能够最大化样本间边界的超平面。内容包括超平面的定义、分隔超平面的条件以及为什么在函数间隔中设定为1。通过数学描述，阐述了SVM的目标是在保持正确分类的同时，寻找使最近样本点与超平面的几何间隔最大的超平面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SVM(支持向量机)最初是一种解决二分类的有监督学习算法，其目的在于：在给定两类样本的数据集的前提下，寻找一个将两类样本分隔开的超平面(separating hyperplane)，并且使得两类样本之间的边界间隔(margin)最大化。最终得到的超平面被称为决策边界(decision boundary)。

本文主要内容分为以下几点：

介绍什么是超平面
分隔超平面的定义
最大间隔超平面的介绍
为什么最小函数间隔设置为1

1 分隔超平面

首先给定一个样本集 $D\in \R^{m\times (n+1)}$ ， $D=\{(\mathbf{x}^i,y^i)|i=1,2,....,m\}$ ，其中， $\mathbf{x}^i\in \R^{1\times n},y^{i}\in\{-1, +1\}$ 。样本集 $D$ 由两类子样本集组成，我们可以将 $D$ 分为正负样本集 $D_+$ 和 $D_-$ ，正负样本集中的样本分别用 $\mathbf{x_+}$ 和 $\mathbf{x}_-$ 来表示。本文开头说过，支持向量机是一种有监督学习算法，为了区分正负样本，我们会事先给样本进行数据标记，如用 $y=\{-1,1\}$ 进行标记，如对于正样本 $\mathbf{x}_+$ ， $y_+=1$ ，而负样本的标记 $y_-=-1$ ，当然可以选用其余的标记，不过采用这种标记方法有利于计算。

假设正负样本线性可分，这意味着，可以找到一个超平面 $w^Tx+b=0$ ，使得正样本和负样本被其隔开。如下图所示：

图1 二维空间中的线性可分

能够将正负样本分隔开的超平面，我们可以称之为分隔超平面(Seperating Hyperplane)，它需要满足一些条件，这个我们在下面的内容继续介绍。首先先了解一下什么是超平面。

1.1 超平面

在 $n$ 维空间中，超平面是一个 $n - 1$ 维的子空间，该子空间可将 $n$ 维空间分隔成为两部分。在二维和三维空间中超平面的几何表示比较直观，例如二维空间是一个面，那么其超平面就是一维的直线，而在三维立体空间中，超平面是将立体分隔成两部分的二维平面。

从数学表示的层面上来看，实数域 $n$ 维空间中的超平面定义如下：
$w_1 x_1 + w_2 x_2 +... + w_n x_n + b=0 \tag{1}$
可以用线性代数的知识将该表达式改写为向量内积的形式：
$w^T\mathbf{x}+b=0 \tag{2}$
或者
$<w,\mathbf{x}>+b=0 \tag{3}$
其中 $w\in \R^{1\times n}$ 为超平面的法向量， $\mathbf{x} \in \R ^{1\times n}$ ， $b\in \R$ 为偏置值(bias)。

超平面有以下几个性质：

性质1：法向量和偏置项以任意相同的倍数放缩，新表达式描述的仍然是原来的超平面。假设放缩比例为 $\lambda$ ，令 $w=\lambda w, b=\lambda b$ 后得到的超平面表达式为 $\lambda(w^T\mathbf{x}+b)=0$ ，显然，这个表达式表示的仍然是原来的超平面。举个浅显的例子，直线 $2x_1+4x_2+4=0$ 与直线 $x_1+2x_2+2=0$ 是同一条直线，虽然他们的系数之比为2。

性质2：点 $\mathbf{x}$ 到超平面的距离为
$d=\frac{|w^T\mathbf{x}+b|}{||w||} \tag{4}$
性质3：超平面将 $n$ 维空间划分为3部分，分为是：i)点 $\mathbf{x}$ 在超平面里 $\Leftrightarrow w^T\mathbf{x}+b=0$ ；ii)点 $\mathbf{x}$ 在超平面的“上方” $\Leftrightarrow w^T\mathbf{x}+b>0$ ；iii)点 $\mathbf{x}$ 在超平面的“下方” $\Leftrightarrow w^T\mathbf{x}+b<0$ 。可以通过图2加深理解。