【机器学习-周志华】阅读笔记-第六章-支持向量机

最新推荐文章于 2025-09-14 00:02:32 发布

原创最新推荐文章于 2025-09-14 00:02:32 发布 · 682 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文深入探讨了支持向量机(SVM)的核心概念，包括如何寻找最佳划分超平面以实现样本分类，介绍了点到平面距离的计算方法，以及SVM算法的数学原理，通过实例解释了如何确定w和b参数，使最接近超平面的样本点远离平面。

第六章支持向量机着实花了我不少功夫，以下是笔者的理解，如有谬误，欢迎指正。

目标：给定训练样本集，分类学习最基本的想法是基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开，但能将训练样本分开的划分超平面可能有很多，支持向量机算法，目的就是为了找到最好的划分超平面。

预备知识：点 $x$ 到面 $s: \omega x+b=0$ 距离 $d$ 的计算

首先，对于平面上的两个点：x'，x''，均满足平面方程，有：

$\omega x'+b=0 , \omega x''+b=0$

$distance = \frac{\omega^{T}}{\|\omega\|}\left(x-x^{\prime}\right)$

原理：将x，x'构成的向量投影到单位法向量 $\frac{\omega^{T}}{\|\omega\|}$ 上，得到点x到平面s 的距离

将上述两行公式合并化简得：

$x^{\prime}=-\frac{b}{\omega^{T}}$

$distance = \frac{1}{\|\omega\|}\left|\omega^{T} x+b\right|$

由此我们得到了如何计算点到平面的距离计算方式，回到刚刚的问题，究竟什么是最好的划分超平面呢？支持向量机认为，最好的划分超平面为：离该平面最近的两类点，能够尽可能得远离这个平面。换而言之，就是要找到一个平面，能够在两类样本中，找到“最中间”的平面，使该平面距离各类最边缘的样本点（们）最远。

举个栗子，简单来说，就是首先找到与平面距离最近的点（们），然后尽可能让这些点与平面的距离远一些（确定w和b）

为了在接下来运算中更好地推导，我们需要有如下定义：

对于样本x，当x为正类时，yi（划分结果标记）为+1（正一）；当x为负类时，yi为-1。目的：为了去掉distance中的绝对值符号（在不改变值的情况下）

我们将distance变为：

$distance = \frac{1}{\|\omega\|}y(\omega^{T} x+b)$

此时，我们的优化目标为：

$argmax\left\{\frac{1}{\|w\|} \min \left[y_{i} \cdot\left(\omega^{T} \cdot\left(x_{i}\right)+b\right)\right]\right\}$

解释：min为了确定i，找到距离划分超平面最近的点，argmax为了确定w和b，找到使距离最大的面

接下来我们将问题转化：

我们通过缩放，使 $y_{i} \cdot\left(\omega^{T} \cdot\left(x_{i}\right)+b\right)\geqslant 1$ ，则后面部分最小值为1，我们可以得到转化后的优化目标：

$argmax\frac{1}{\|w\|}\ and\ y_{i} \cdot\left(\omega^{T} \cdot\left(x_{i}\right)+b\right)\geqslant 1$

在通过变换，可将其向拉格朗日乘子法靠拢

即： $\min _{(\omega, b)} \frac{1}{2}\|\omega\|^{2}\ and\ 1-y_{i}\left(\omega^{T}\left(x_{i}\right)+b\right) \leq 0$

由此我们将问题转化为求目标函数L的极值：至于为啥能这样转化，大家可以看看这个链接

$L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)$

如此一来，问题便变得简单起来，L分别对w和b偏导，使其等于零，得到如下两个式子：

$\begin{array}{l} {\boldsymbol{w}=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}} \\ {0=\sum_{i=1}^{m} \alpha_{i} y_{i}} \end{array}$

将他们带入L，我们得到了新的对偶问题：

$\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}$

$\begin{array}{ll} {\text { s.t. }} & {\sum_{i=1}^{m} \alpha_{i} y_{i}=0} \\ {} & {\alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m} \end{array}$

我们需要在满足下面条件的情况下，选取一个a，使得该式最大

这里需注意，我们需要满足KKT条件，在这个的链接中也有提到啥是KKT条件

$\left\{\begin{array}{l} {\alpha_{i} \geqslant 0} \\ {y_{i} f\left(\boldsymbol{x}_{i}\right)-1 \geqslant 0} \\ {\alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1\right)=0} \end{array}\right.$

如此一来，我们便能够确定a，进而根据约束条件确定w和b

根据约束条件，我们不难理解其几何意义：

对任何训练样本 $({x_{i},{y_{i})$ ，总有 ${a_{i}=0$ 或 ${y_{i} f\left(\boldsymbol{x}_{i}\right)=1}$ ，如果是a为0，则该样本不会在求和式中出现，也就不会对fx有任何影响，如果a大于零，则对应的有 ${y_{i} f\left(\boldsymbol{x}_{i}\right)=1}$ ，对应的样本点在最大间隔边界上，是一个支持向量。这就是“支持向量机”名字的由来，目的是为了找到支持划分超平面的向量，最终模型只与支持向量有关。

纸上推导过程见下图：其包含了后面延伸的松弛因子和核函数

若有谬误，不胜感激！