支持向量机（Support Vector Machine，SVM）简单介绍_实验:支持向量机介绍在本实验中,将使用支持向量机(support vector machine,-优快云博客

本文链接：https://blog.youkuaiyun.com/Yemiekai/article/details/119487056

本文介绍了SVM（支持向量机）的优化目标，从逻辑回归的角度过渡，指出SVM通过最大化分类间距实现高效分类。SVM的代价函数不同于逻辑回归，其要求分类超平面具有更大的间距，从而提高模型泛化能力。大间距分类器的特点在于即使存在噪声或异常点，仍能保持良好的分类效果。此外，文章还探讨了核函数的概念，通过核函数实现非线性决策边界的构造，以及如何选择和训练参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. SVM 的优化目标

前面讲了逻辑回归，SVM 和逻辑回归是很像的，我们试着从逻辑回归过渡到 SVM。

在这里插入图片描述

(图1)

如 (图1) 所示，在逻辑回归中，输入样本特征为 $\boldsymbol{x}$ ，模型参数为 $\bm{\theta}$ 。

当样本标签为 $y = 1$ 时，我们希望假设函数输出 $h_{\bm{\theta}}(\boldsymbol{x})\approx1$ ，也就是说希望 $\bm{\theta}^T\boldsymbol{x}$ 远大于 $0$ 。（ $\bm{\theta}^T\boldsymbol{x}\gg 0$ ）
当样本标签为 $y = 0$ 时，我们希望假设函数输出 $h_{\bm{\theta}}(\boldsymbol{x})\approx0$ ，也就是说希望 $\bm{\theta}^T\boldsymbol{x}$ 远小于 $0$ 。（ $\bm{\theta}^T\boldsymbol{x}\ll 0$ ）

进一步观察逻辑回归的代价函数，对于单个样本： $\text{Cost}(h_{\bm{\theta}}\left(\boldsymbol{x}\right),y ) = - \left( \; \textcolor{red}{ y \cdot \log(h_{\bm{\theta}}(\boldsymbol{x})) } + \color{blue}{(1-y) \cdot \log(1-h_{\bm{\theta}}(\boldsymbol{x})) } \;\right)$ 代入 $h_{\bm{\theta}}(\boldsymbol{x})$ ： $\text{Cost}(h_{\bm{\theta}}\left(\boldsymbol{x}\right),y ) = \textcolor{red}{ -y \log (\dfrac{1}{1+e^{-\bm{\theta}^T\boldsymbol{x}}} ) } - \color{blue}{(1-y) \cdot \log(1- \dfrac{1}{1+e^{-\bm{\theta}^T\boldsymbol{x}}}) } \tag{1}$

当 $y = 1$ 时，式子(1)蓝色部分没有了。

此时代价函数 $\text{Cost}=\textcolor{red}{ -\log (\dfrac{1}{1+e^{-\bm{\theta}^T\boldsymbol{x}}} ) }$ ，函数曲线如下：

在这里插入图片描述
这里用 $z$ 代替 $\bm{\theta}^T\boldsymbol{x}$ 。为了让代价函数更小， $z$ 会尽量往右边靠。

一般在 SVM 中，我们会换一种代价函数，如下图右边的曲线：

在这里插入图片描述

它和原来的形状很像，由两条直线线段组成。它的计算更方便，更适合 SVM 的优化。

当 $y = 0$ 时，式子(1)红色部分没有了。

此时代价函数 $\text{Cost}=\color{blue}{- \log(1- \dfrac{1}{1+e^{-\bm{\theta}^T\boldsymbol{x}}}) }$ ，函数曲线如下：

在这里插入图片描述

$z$ 会尽量往左边靠。同样地，对于 SVM，我们给它换一个代价函数：

在这里插入图片描述

现在我们再来写出完整的代价函数。

逻辑回归的代价函数：
$\min_{\theta} \frac{1}{m} \left[ \sum^{m}_{i=1} y^{(i)} \textcolor{red}{ \left( -\log\left(h_{\bm{\theta}}(\boldsymbol{x}^{(i)}) \right) \right) } + (1-y^{(i)}) \color{blue}{ \left( - \log \left(1-h_{\bm{\theta}}(\boldsymbol{x}^{(i)}) \right) \right) } \right] + \frac{\lambda}{2m} \sum^{n}_{j=1} \theta_j^2$

然后把红色和蓝色的部分换成前面讲的：
$\min_{\theta} \frac{1}{m} \left[ \sum^{m}_{i=1} y^{(i)} \textcolor{red}{ \text{cost}_1(\bm{\theta}^T\boldsymbol{x}^{(i)}) } + (1-y^{(i)}) \textcolor{blue}{\text{cost}_0(\bm{\theta}^T\boldsymbol{x}^{(i)}) } \right] + \frac{\lambda}{2m} \sum^{n}_{j=1} \theta_j^2$

然后，常数项并不影响代价函数的优化，所以可以去掉 $\dfrac{1}{m}$ 。同时把正则化权重 $\lambda$ 换到左边的式子，用 $C$ 表示：
$\min_{\theta} C\left[ \sum^{m}_{i=1} y^{(i)} \text{cost}_1(\bm{\theta}^T\boldsymbol{x}^{(i)}) + (1-y^{(i)}) \text{cost}_0(\bm{\theta}^T\boldsymbol{x}^{(i)}) \right] + \sum^{n}_{j=1} \theta_j^2 \tag{2}$

你也可以当做是 $C=\dfrac{1}{\lambda}$ ， $C$ 同样是正则化权重，决定我们更关心左边式子的优化还是右边式子的优化。

所以式子(2) 就是支持向量机（SVM）的整个优化目标函数。 当你最小化这个函数，就得到了 SVM 的参数。

得到参数 $\bm{\theta}$ 后，当 $\bm{\theta}^T\boldsymbol{x} \geqslant 0$ 时，SVM 的假设函数 $h_{\bm{\theta}}(\boldsymbol{x})$ 直接输出 $1$ ；否则直接输出 $0$ 。

在这里插入图片描述

2. 大间距的理解

人们有时将支持向量机看作是大间距分类器（Large Margin Classifier），我们来看看这是怎么回事。
在这里插入图片描述
在逻辑回归中，对于 $y = 1$ 和 $y = 0$ 的输出，只需要 $\bm{\theta}^T\boldsymbol{x} \geqslant 0$ 和 $\bm{\theta}^T\boldsymbol{x} \leqslant 0$ ：
$\left\{ \begin{array}{cc} y=1 \qquad \bm{\theta}^T\boldsymbol{x} \geqslant 0 \\ y=0 \qquad \bm{\theta}^T\boldsymbol{x} \leqslant 0 \end{array} \right.$

而在 SVM 中，我们需要 $\color{red}\bm{\theta}^T\boldsymbol{x} \geqslant 1$ 和 $\color{red}\bm{\theta}^T\boldsymbol{x} \leqslant -1$ ：
$\left\{ \begin{array}{cc} y=1 \qquad \bm{\theta}^T\boldsymbol{x} \geqslant 1 \\ \; \; \,y=0 \qquad \bm{\theta}^T\boldsymbol{x} \leqslant -1 \end{array} \right. \tag{3}$

从这里可以看出，SVM 的要求会更严格一点。

当 $C$ 设得很大时，SVM 会得到一个比较大的分类间距：
在这里插入图片描述

普通的分类器只是简单地把两个类分开，勉强分开就行了。
而 SVM 会努力用一个最大的间距来分离样本，所以有时 SVM 被大间距分类器。

如果这个时候出现了一个异常样本，继续用大的 $C$ 值，就会像下面这样：
在这里插入图片描述
异常样本的出现，使它变得和普通分类器一样，不再具有大间隔。
虽然也能分开样本，但是没有完全分开，体现不出 SVM 的优势。

这个时候把 $C$ 调小一点就好了。
当 $C$ 不是非常非常大的时候，它可以忽略掉一些异常点的影响，得到更好的决策界。

回顾 $C=\dfrac{1}{\lambda}$ ，可以得知：
$C$ 较大时，相当于 $\lambda$ 较小，可能会导致过拟合，高方差。
$C$ 较小时，相当于 $\lambda$ 较大，可能会导致低拟合，高偏差。

3. 大间距分类器的数学理解

先介绍一下向量内积：

在这里插入图片描述

设有两个向量 $\boldsymbol{u}$ 和 $\boldsymbol{v}$ ：
$\boldsymbol{u} = \begin{bmatrix} u_1 \\ u_2 \end{bmatrix} \quad \boldsymbol{v} = \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} \quad$ 则向量的内积为 $\boldsymbol{u} \cdot \boldsymbol{v} = \boldsymbol{u}^T\boldsymbol{v} = \begin{bmatrix} u_1 \; u_2 \end{bmatrix} \begin{bmatrix} v_1 \\ v_2 \end{bmatrix} = u_1 v_1 + u_2 v_2$

也可以表示为 $\boldsymbol{u} \cdot \boldsymbol{v} = \|\boldsymbol{u}\| \|\boldsymbol{v}\| \cos\theta$

其中 $\|\boldsymbol{v}\|$ 表示向量 $\boldsymbol{v}$ 的范数，或者说向量的模长： $\|\boldsymbol{v}\| = \sqrt{v_1^2 + v_2^2}$

从几何上看， $p$ 为 $\boldsymbol{v}$ 在 $\boldsymbol{u}$ 上的投影，是一个长度： $=\|\boldsymbol{v}\| \cos\theta$

所以又可以写成： $\boldsymbol{u}^T\boldsymbol{v} = p \cdot \|\boldsymbol{u}\|$

$p$ 可能是负数，例如这样的情况：

在这里插入图片描述

夹角 $\theta$ 大于 $90$ 度， $\cos\theta$ 为负数，因此 $p$ 为负数。

现在用一个特定的例子来分析大间距产生的原理。

假设我们的模型参数是 2 个（ $\theta_1，\theta_2$ ），输入也是 2 个（ $x_1，x_2$ ）， $\bm{\theta}^T\boldsymbol{x} = \theta_1 x_1 + \theta_2 x_2$ 。

把参数 $\bm{\theta}$ 和输入 $\boldsymbol{x}$ 都看做向量，根据上面介绍的内积知识，有：
$\bm{\theta}^T\boldsymbol{x} = p \cdot \| \bm{\theta} \|$ 其中 $p$ 是向量 $\boldsymbol{x}$ 在向量 $\bm{\theta}$ 上的投影长度：
在这里插入图片描述
根据某些数学原理，向量 $\bm{\theta}$ 一定是垂直于决策边界的。

再看回我们的代价函数：
$\min_{\theta} C\left[ \sum^{m}_{i=1} y^i \text{cost}_1(\bm{\theta}^T\boldsymbol{x}^i) + (1-y^i) \text{cost}_0(\bm{\theta}^T\boldsymbol{x}^i) \right] + \sum^{n}_{j=1} \theta_j^2 \tag{4}$

由于 $\bm{\theta}$ 是一个向量，当忽略 $\theta_0$ 时，式子(4)右边的 $\sum\limits^{n}_{j=1} \theta_j^2$ 可以看做是 $\bm{\theta}$ 的模长： $\| \bm{\theta} \|^2$ 。

在最小化代价函数时，当样本标签为 $y = 1$ 时：

$\bullet$ 根据式子(3)，我们希望 $\bm{\theta}^T\boldsymbol{x}$ 远大于 $1$ ，即 $\cdot \| \bm{\theta} \|$ 尽量大。
$\bullet$ 根据式子(4)，我们希望 $\sum\limits^{n}_{j=1} \theta_j^2$ 尽量小，即 $\| \bm{\theta} \|^2$ 尽量小。

要满足上述约束，只能使 $p$ 尽量大。所以最小化代价函数的过程会使 $p$ 变大。

在这里插入图片描述
$p$ 是 $\boldsymbol{x}$ 在 $\bm{\theta}$ 上投影的长度，样本 $\boldsymbol{x}$ 已经确定，所以 $\bm{\theta}$ 决定了 $p$ 的大小。

上面的图展示了 2 种情况，形象地说， $\bm{\theta}$ 指向样本聚集点时， $p$ 最大，分类间距最大。

结合上述所讲，优化结束时使得 $p$ 值较大，对应参数 $\bm{\theta}$ ，也得到最大决策边界。

4. 核函数 (kernels)

在这里插入图片描述

如上图所示，这种复杂的决策边界，没办法用线性模型来表示。

像之前用的 $\bm{\theta}^T\boldsymbol{x} = \theta_1 x_1 + \theta_2 x_2$ 是无法做到的。

可能需要用到高级数的多项式模型，如： $\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_1 x_2 + \theta_4 x_1^2 + \theta_5 x_2^2 + \cdots$

$x_1$ 和 $x_2$ 可以有很多组合方式，每种组合方式表示一种特征。我们用 $f$ 来表示特征：

例如 $f_1 = x_1，f_2=x_2，f_3=x_1 x_2，f_4 = x_1^2，f_5 = x_2^2$

则 $h_{\bm{\theta}}(\boldsymbol{x}) = \theta_1 f_1 + \theta_2 f_2 + \cdots + \theta_n f_n$

上面这样的特征组合形式太多了，有没有更好的办法来定义特征呢？我们可以用 核函数（kernels） 来计算。

举一个例子，现在有一组训练样本 $\boldsymbol{x}$ ，我们先选出一组 地标（landmarks）： $\boldsymbol{l}^{(1)}$ ， $\boldsymbol{l}^{(2)}$ ， $\boldsymbol{l}^{(3)}$ 。
根据 $\boldsymbol{x}$ 与地标之间的近似程度来选取特征 $f_1$ ， $f_2$ ， $f_3$ 。
在这里插入图片描述
例如： $f_1 = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(1)}) = \exp\left(-\dfrac{\|\boldsymbol{x}-\boldsymbol{l}^{(1)}\|^2}{2\sigma^2} \right)$

其中 $\|\boldsymbol{x}-\boldsymbol{l}^{(1)}\|^2$ 表示向量 $\boldsymbol{x}$ 与向量 $\boldsymbol{l}^{(1)}$ 之间的欧氏距离。

同理 $f_2 = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(2)}) = \exp\left(-\dfrac{\|\boldsymbol{x}-\boldsymbol{l}^{(2)}\|^2}{2\sigma^2}\right) \\[1em] f_3 = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(3)}) = \exp\left(-\dfrac{\|\boldsymbol{x}-\boldsymbol{l}^{(3)}\|^2}{2\sigma^2}\right)$

这个 $\text{similarity}$ 就叫做核函数（kernel function），而这里实际上就是个高斯核函数(Gaussian Kernel)。
除了这个高斯核函数，还有其它的相似度度量函数，也就是别的核函数，之后再介绍。
为了简单起见，也把 $\text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(3)})$ 写成 $k(\boldsymbol{x}，\boldsymbol{l}^{(3)})$ 。

下面来讲为什么核函数和地标有效。

把欧式距离展开： $f_1 = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(1)}) = \exp\left(-\dfrac{\|\boldsymbol{x}-\boldsymbol{l}^{(1)}\|^2}{2\sigma^2} \right) = \exp\left(-\dfrac{ \sum_{j=1}^{n} (x_j - l_j^{(1)})^2}{2\sigma^2}\right)$
假设有一个样本 $\boldsymbol{x}$ 与地标 $\boldsymbol{l}^{(1)}$ 很近，那么欧式距离很小：
$f_1 \approx \exp\left(-\dfrac{0}{2\sigma^2} \right) \approx 1$

如果样本 $\boldsymbol{x}$ 与地标 $\boldsymbol{l}^{(1)}$ 很远，那么欧式距离很大：
$f_1 \approx \exp\left(-\dfrac{\infty}{2\sigma^2} \right) \approx 0$

其实在这个例子里 $f_1$ 就是一个二维的高斯函数（Gaussian Function）。

假设我们的地标 $\boldsymbol{l}^{(1)} = (3, \,5)$ ，则它的图像如下：

在这里插入图片描述

中心点 (那个山峰) 的 $f_1$ 值为 $1$ ，远离中心点时 $f_1$ 逐渐减小。

方差 $\sigma^2$ 决定了偏离中心点时函数值的下降速率。

现在我们选了 3 个标记点，由 3 个核函数决定预测结果。
假设我们已经训练得到参数： $\theta_0=-0.5 ，\quad \theta_1=1， \quad \theta_2=1， \quad \theta_3=0$
下面这张图的红色圈圈就是决策边界。

在这里插入图片描述

图中紫色的点靠近 $\boldsymbol{l}^{(1)}$ ，于是 $f_1 \approx 1$ ， $f_2$ 和 $f_3$ 接近 $0$ 。
因此 $h_{\bm{\theta}}(\boldsymbol{x}) = \theta_0 + \theta_1 f_1 + \theta_2 f_2 + \theta_3 f_3 = -0.5 + 1\times1+1\times0 + 0\times0 = 0.5> 0$ ，预测 $y = 1$ 。

同理绿色的点靠近 $\boldsymbol{l}^{(2)}$ ，也预测 $y = 1$ 。

浅蓝色 的点距离 3 个地标都远，因此预测 $y = 0$ 。

通过定义 标记点 和 核函数，我们就能训练出复杂的非线性边界。（接近标记点的数据预测 $1$ ，远离标记点的预测 $0$ ）

以上就是关于核函数的部分概念，以及在支持向量机中的使用介绍。

剩下的问题是：如何选择标记点；是否还有其它的相似度方程。

标记点的选择

假设现在有 $m$ 个样本： $(\boldsymbol{x}^{(1)}，y^{(1)})$ ， $(\boldsymbol{x}^{(2)}，y^{(2)})$ ， $\cdots$ ， $(\boldsymbol{x}^{(m)}，y^{(m)})$ 。

那就直接在每个样本上建立标记点： $\boldsymbol{l}^{(1)} = \boldsymbol{x}^{(1)}$ ， $\boldsymbol{l}^{(2)} = \boldsymbol{x}^{(2)}$ ， $\cdots$ ， $\boldsymbol{l}^{(m)} = \boldsymbol{x}^{(m)}$ 。一共 $m$ 个标记点。

对于输入样本 $\boldsymbol{x}$ ，我们算出它的特征向量 $\boldsymbol{f}$ ，即 $\boldsymbol{x}$ 与每一个标记点之间的相似度：
$f_1 = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(1)}) \\ f_2 = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(2)}) \\ \vdots \\ f_m = \text{similarity}(\boldsymbol{x}，\boldsymbol{l}^{(m)})$

$\boldsymbol{f} = \begin{bmatrix} f_1 \\ f_2 \\ \vdots \\ f_m \end{bmatrix}$

当 $\bm{\theta}^T\boldsymbol{f} \geq 1$ 时，预测 $y = 1$ 。反之预测 $y = 0$ 。

参数 $\bm{\theta}$ 如何训练获得呢？修改之前的代价函数，把 $\bm{\theta}^T\boldsymbol{x}$ 换成 $\bm{\theta}^T\boldsymbol{f}$ 即可：
$\min_{\theta} C\left[ \sum^{m}_{i=1} y^{(i)} \text{cost}_1(\bm{\theta}^T\boldsymbol{f}^{(i)}) + (1-y^{(i)}) \text{cost}_0(\bm{\theta}^T\boldsymbol{f}^{(i)}) \right] + \sum^{m}_{j=1} \theta_j^2$