机器学习 03：线性可分支持向量机

最新推荐文章于 2024-09-02 09:26:45 发布

原创最新推荐文章于 2024-09-02 09:26:45 发布 · 725 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #支持向量机 #svm #数学建模 #算法

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了支持向量机（SVM）的主要思想，强调其作为间隔最大化的线性分类器特性。通过讨论距离和间隔的概念，展示了如何找到最大间隔，并通过优化目标函数、拉格朗日乘子法及对偶问题解决复杂的约束问题。同时，解释了凸优化问题和KKT条件在SVM中的应用，以及支持向量在模型中的关键作用。

文章目录

一、主要思想：
二、找最大间隔：

一、主要思想：

支持向量机（SVM）的基本模型线性支持支持向量机是定义在特征空间上的间隔最大的线性分类器，这使它有别于感知机。适用于高维小样本，且线性可分的数据。

二、找最大间隔：

2.1 距离：

距离是一种映射关系，满足：
$\begin{cases}D(x,y)\ge0,\ D(x,y)=0\Leftrightarrow x=y\\D(x,y)=D(y,x)\\D(x,z)\ne D(x,y)+D(y,z)\end{cases}$

这里我们使用 2 范数来计算距离

2.2 间隔：

距超平面最近的点到平面的距离的两倍。由此我们可以推出间隔的计算公式：
$\gamma_i=2\frac{\vec w\cdot\vec x_i+b}{\parallel \vec w\parallel}$

而其中距超平面最近的点的间隔是 $\gamma = \min\limits_{i=1,2,3\cdots}\gamma_i$

我们要寻找合适的 $(\vec w,b)$ ，使得间隔最大，也就是
$\max\limits_{\vec w,\ b}\gamma\\s.t.\ \forall i\ (\vec w\vec x_i+b)y_i>0$

但是寻找的过程非常的麻烦，所以我们要对此进行优化。

2.2.1 优化目标函数

支持向量机的缩放引理：假设找到一组 $(\vec w,b)$ ，对于 $\forall r>0$ ， $(r\vec {w},rb)$ 仍是解

令引理中的 $r=\gamma$ ：

$\begin{aligned}y_ir_i=y_i(\frac{\vec w}{\parallel\vec w\parallel}\cdot x_i+\frac{b}{\parallel\vec w\parallel})&\ge\gamma\\y_i(\frac{\vec w}{\parallel\vec w\parallel\gamma}\cdot x_i+\frac{b}{\parallel\vec w\parallel\gamma})&\ge1\end{aligned}$

其中 $\parallel\vec w\parallel$ 和 $\gamma$ 都是标量，所以令：

$\vec w^*=\frac{\vec w}{\parallel\vec w\parallel\gamma}\\b^*=\frac{b}{\parallel\vec w\parallel\gamma}$

于是有：

$y_i(\vec w^*\vec x_i+b^*)\ge1$

也就是说，我们总能通过放缩使得间隔为 1 并且解为 $(\vec w^*,b^*)$

由于 $(\vec w^*,b^*)$ 和 $(\vec w,b)$ 是倍数关系，于是我们的目标就变成了：
$\max\limits_{\vec w^*,b^*}\gamma=\max\limits_{\vec w^*,b^*}\frac{2}{\parallel\vec w^*\parallel}\min\limits_i(\vec w^*\cdot x_i+b^*)=\max\limits_{\vec w^*,b^*}\frac{2}{\parallel\vec w^*\parallel}$

取倒数使得求最大值变成求最小值，方便起见，我们把 $(\vec w^*,b^*)$ 写为 $(\vec w,b)$ ，此时，目标函数变成了：

$\min\limits_{\vec w,b}\frac{1}{2}\parallel\vec w\parallel\\s.t.\ y_i(\vec w\cdot\vec x_i+b)\ge1$

带有约束的最值问题，可以想到使用拉格朗日乘子法来求目标函数。

2.2.2 拉格朗日乘子法

$L(\vec w,b,\vec\alpha)=\frac{1}{2}\parallel\vec w\parallel-\sum\limits_{i=1}^N\alpha_i(y_i(\vec w\cdot\vec x_i+b)-1)\\s.t.\ \alpha_i\ge0$

令 $\theta(\vec w)=\max\limits_{\alpha_i\ge0}L(\vec w,b,\vec\alpha)$

$\theta(\vec w)=\begin{cases}\frac{1}{2}\parallel\vec w\parallel^2&\vec w,b\ 满足约束\\\infty&\vec w,b\ 不满足约束\end{cases}$

于是原约束问题就等价于：
$\min\limits_{\vec w,b}\theta(\vec w)=\min\limits_{\vec w,b}\max\limits_{\alpha_i\ge0}L(\vec w,b,\vec\alpha)$

这样我们就把一个带有约束的最值问题转化成了无约束最值问题。但是求解这个新的约束问题过程非常复杂，所以我们需要使用拉格朗日函数的对偶性。

2.2.3 拉格朗日函数的对偶性

设：
$\min\limits_{\vec w,b}\max\limits_{\alpha_i\ge0}L(\vec w,b,\vec\alpha)=p^*$

把 $\min$ 和 $\max$ 互换一下：
$\max\limits_{\alpha_i\ge0}\min\limits_{\vec w,b}L(\vec w,b,\vec\alpha)=d^*$

通常情况下， $p^*\ge d^*$ ，要使等号成立，需要满足两个条件：

优化问题是凸优化问题
满足 $K K T$ 条件

凸优化问题

凸优化问题 (Convex optimization problem) 要求目标函数为凸函数，而且定义域为凸集

凸函数：

若 $f^{\prime\prime}(x)\ge0$ ，则 $f (x)$ 为凸函数。

显然 $\theta(\vec w)$ 是凸函数

凸集：

当集合 $C$ 中任意两点之间的线段上的点也在 $C$ 内，则这个集合是凸集。

所以 $\theta(\vec w)$ 的定义域是一个凸集。

$K K T$ 条件

主问题可行： $y_i(\vec w\cdot\vec x_i+b)-1\ge0$
对偶问题可行： $\alpha_i\ge0$
互补松弛： $\alpha_i(y_i(\vec w\cdot\vec x_i+b)-1)=0$

等号成立，所以可以计算 $d^*$ ，令 $L(\vec w,b,\vec\alpha)$ 对 $\vec w$ 和 $b$ 的偏导为 0 可得：
$\vec w=\sum\limits_{i=1}^N\alpha_iy_i\vec x_i\\\sum\limits_{i=1}^N\alpha_iy_i=0$

带回 $L(\vec w,b,\vec\alpha)$ ：
$\min\limits_{\vec w,b}L(\vec w,b,\vec\alpha)=-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j(\vec x_i\cdot\vec x_j)+\sum\limits_{i=1}^N\alpha_i$

对上式求最大值，即：
$\min\limits_{\alpha_i\ge0}\left(\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j(\vec x_i\cdot\vec x_j)-\sum\limits_{i=1}^N\alpha_i\right)\\s.t. \sum\limits_{i=1}^N\alpha_iy_i=0$