支持向量机 (SVM)

最新推荐文章于 2021-07-29 19:21:51 发布

原创

最新推荐文章于 2021-07-29 19:21:51 发布 · 449 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #机器学习 #算法 #svm #python

本文详细介绍了支持向量机（SVM）的原理，包括线性可分、软间隔和线性不可分的支持向量机，以及如何引入核函数解决非线性问题。此外，还讲解了序列最小化（SMO）算法在SVM优化过程中的作用，为理解和应用SVM提供了全面的知识框架。

文章目录

支持向量机 (SVM)

支持向量机 (SVM)

1 线性可分支持向量机

1.1 线性可分支持向量机

分离超平面模型

$\boldsymbol{w}^{T}\boldsymbol{x} + b = 0$

决策函数

$sgn(\boldsymbol{w}^{T}\boldsymbol{x} + b)$

1.2 目标函数——硬间隔最大化

硬间隔

最优化问题

$\begin{aligned} \max_{\boldsymbol{w},b}\quad &\frac{2}{||\boldsymbol{w}||} \\ s.t.\quad &y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b) \geq 1,\quad i=1,\cdots,m \end{aligned}$

等价于
$\begin{aligned} \min_{\boldsymbol{w},b}\quad &\frac{1}{2}||\boldsymbol{w}||^{2} \\ s.t.\quad &y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b) \geq 1,\quad i=1,\cdots,m \end{aligned}$

若训练数据集线性可分，则可将数据集中的样本点完全分开的最大间隔分离超平面存在且唯一。

1.3 学习的对偶算法

构造Lagrange函数
$L(\boldsymbol{w},b,\boldsymbol{\lambda}) = \frac{1}{2}||\boldsymbol{w}||^2 + \sum_{i=1}^{m}\lambda_{i}\left\{1-y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b)\right\}$
原始问题：
$\min_{\boldsymbol{w},b}\max_{\boldsymbol{\lambda}\geq0}\ L(\boldsymbol{w},b,\boldsymbol{\lambda})$
对偶问题：
$\max_{\boldsymbol{\lambda}\geq0}\min_{\boldsymbol{w},b}\ L(\boldsymbol{w},b,\boldsymbol{\lambda})$
首先该优化问题是凸二次规划问题，其次对线性可分情况，原始问题满足Slater条件，故根据定理2存在 $w^*,b^*,\lambda^*$ 使 $w^*,b^*$ 是原始问题的最优解， $\lambda^*$ 是对偶问题的最优解。由定理3知KKT条件成立：
$\begin{aligned} \nabla_{\boldsymbol{w}}L(\boldsymbol{w},b,\boldsymbol{\lambda}) &= \boldsymbol{w} - \sum\limits_{i=1}^{m}\lambda_{i}y_{i}\boldsymbol{x}_{i} = 0 & (1) \\ \nabla_{b}L(\boldsymbol{w},b,\boldsymbol{\lambda}) &= -\sum\limits_{i=1}^{m}\lambda_{i}y_{i} = 0 & (2) \\ \lambda_{i}[y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b)-1] &= 0,\ i=1,\cdots,m & (3) \\ \lambda_{i} &\geq 0 ,\ i=1,\cdots,m & (4) \\ y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b)-1&\geq 0,\ i=1,\cdots,m & (5) \\ \end{aligned}$
Step1 求 $\min\limits_{\boldsymbol{w},b}\ L(\boldsymbol{w},b,\boldsymbol{\lambda})$ .

由 KKT条件 (1)(2) 得
$\begin{aligned} \boldsymbol{w} &= \sum_{i=1}^{m}\lambda_{i}y_{i}\boldsymbol{x}_{i} & (1*) \\ 0 &= \sum\limits_{i=1}^{m}\lambda_{i}y_{i} & (2*) \\ \end{aligned}$
代入Lagrange函数得：
$\min\limits_{\boldsymbol{w},b}\ L(\boldsymbol{w},b,\boldsymbol{\lambda}) = -\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\lambda_{i}\lambda_{j}y_{i}y_{j}\boldsymbol{x}_{i}^{T}\boldsymbol{x}_{j} + \sum_{i=1}^{m}\lambda_{i}$
其中， $\sum\limits_{i=1}^{m}\lambda_{i}y_{i}=0$ .

Step 2 求解对偶问题 $\max\limits_{\boldsymbol{\lambda}}\min\limits_{\boldsymbol{w},b}\ L(\boldsymbol{w},b,\boldsymbol{\lambda})$ ，即求 $\min\limits_{\boldsymbol{w},b}\ L(\boldsymbol{w},b,\boldsymbol{\lambda})$ 对 $\boldsymbol{\lambda}\geq0$ 的极大值点 $\boldsymbol{\lambda}^*$ .
$\begin{aligned} \max_{\boldsymbol{\lambda}\geq0}\quad &-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\lambda_{i}\lambda_{j}y_{i}y_{j}\boldsymbol{x}_{i}^{T}\boldsymbol{x}_{j} + \sum_{i=1}^{m}\lambda_{i} \\ s.t.\quad &\sum\limits_{i=1}^{m}\lambda_{i}y_{i} = 0 \\ &\lambda_{i}\geq0,\ i=1,\cdots,m \end{aligned}$
利用序列最小化 (SMO) 算法求解以上问题得到 $\boldsymbol{\lambda}^{*}$ .

Step3 求解原始问题 $\min\limits_{\boldsymbol{w},b}\max\limits_{\boldsymbol{\lambda}\geq0}\ L(\boldsymbol{w},b,\boldsymbol{\lambda})$ ，等价于求解 $\min\limits_{\boldsymbol{w},b}\ L(\boldsymbol{w},b,\boldsymbol{\lambda^*})$ .

$(\boldsymbol{w}^*,b^*,\boldsymbol{\lambda}^*)$ 满足KKT条件，易知在 $\boldsymbol{\lambda}^*$ 中至少有一个 $\lambda_{j}^* > 0$ (否则由(1*) 知 $\boldsymbol{w}^*=0$ , 但是 $\boldsymbol{w}^*=0$ 不是原始问题的解，矛盾)。对此 $j$ ，由 (3) 知
$y_{j}(\boldsymbol{w}^{*T}\boldsymbol{x}_{j}+b^*)-1=0$
因此可以得到
$\begin{aligned} \boldsymbol{w}^* &= \sum_{i=1}^{m}\lambda_{i}^{*}y_{i}\boldsymbol{x}_{i} \\ b^* &= y_{j} - \sum_{i=1}^{m}\lambda_{i}^{*}y_{i}\boldsymbol{x}_{i}^{T}\boldsymbol{x}_{j} \end{aligned}$

由此可知， $\boldsymbol{w}^*,b^*$ 的训练只依赖于 $\lambda_{i}^{*}>0$ 的样本点 $x_{i},y_{i})$ ，称为支持向量，支持向量之可能出现在间隔边界上。

Step4 求得分离超平面
$\boldsymbol{w}^{*T}\boldsymbol{x} + b^{*} = 0$
Step5 分类决策函数
$sgn(\boldsymbol{w}^{*T}x + b^{*})$

2 软间隔支持向量机

2.1 Hypothsis

分离超平面模型
$\boldsymbol{w}^{T}\boldsymbol{x} + b = 0$
分类决策函数
$sgn(\boldsymbol{w}^{T}\boldsymbol{x}+b)$

2.2 目标函数——最大化软间隔

软间隔

目标函数 (原始问题)
$\begin{aligned} \min_{\boldsymbol{w},b,\boldsymbol{\xi}}\quad &\frac{1}{2}||\boldsymbol{w}||^{2} + C\sum_{i=1}^{m}\xi_{i} \\ s.t.\quad &y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b) \geq 1-\xi_{i},\quad i=1,\cdots,m \\ &\xi_{i}\geq0 \end{aligned}$
其中， $C$ 是惩罚项系数， $\boldsymbol{\xi}$ 是松弛变量。

2.3 转化为对偶问题求解

构造Lagrange函数
$L(\boldsymbol{w},b,\boldsymbol{\xi},\boldsymbol{\lambda},\boldsymbol{\mu}) = \frac{1}{2}||\boldsymbol{w}||^2 + C\sum_{i=1}^{m}\xi_{i} +\sum_{i=1}^{m}\lambda_{i}\left\{1-\xi_{i}-y_{i}(\boldsymbol{w}^{T}\boldsymbol{x}_{i}+b)\right\} - \sum_{i=1}^{m}\mu_{i}\xi_{i}$

最低0.47元/天解锁文章