SVM详解-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_35547281/article/details/89238100

直观解释

SVM，Support Vector Machine，它是一种二分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

这里涉及了几个概念，二分类模型，线性分类器，间隔最大化，凸二次规划问题。

二分类模型：给定的各个样本数据分别属于两个类之一，而目标是确定新数据点将归属到哪个类中。
线性分类器：分割样本点的分类器是一个超平面，这也就要求样本线性可分，这是hard-margin SVM的要求，对于后来的soft-margin SVM，放低为近似线性可分，再到后来的核技巧，要求映射到高维空间后要近似线性可分。
线性可分： $D 0$ 和 $D 1$ 是 $n$ 维欧氏空间中的两个点集（点的集合）。如果存在 $n$ 维向量 $w$ 和实数 $b$ ，使得所有属于 $D 0$ 的点 xi 都有 $wx_i+b>0$ ，而对于所有属于 $D 1$ 的点 $x_j$ 则有 $wx_j+b<0$ 。则我们称 $D 0$ 和 $D 1$ 线性可分。
间隔最大化：首先要知道SVM中有函数间隔和几何间隔，函数间隔刻画样本点到超平面的相对距离，几何间隔刻画的是样本点到超平面的绝对距离，SVM的直观目的就是找到最小函数距离的样本点，然后最大化它的几何间隔。
凸二次规划：目标函数是二次的，约束条件是线性的。

核心公式

线性可分训练集： $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)\right\}$
学习得到的超平面： $w^{* T} x+b^{*}=0$
相应的分类决策函数： $f(x)=\operatorname{sign}\left(w^{* T} x+b^{*}\right)$
SVM基本思想：间隔最大化，不仅要讲正负类样本分开，而且对最难分的点（离超平面最近的点）也要有足够大的确信度将他们分开。

在这里插入图片描述

函数间隔

给定一个超平面 $（ w, b ）$ ，定义该超平面关于样本点 $x_i,y_i )$ 的函数间隔为： $\widehat{\gamma}_{i}=y_{i}\left(w^{T} x_{i}+b\right)$
定义该超平面关于训练集 $T$ 的函数间隔为： $\widehat{\gamma}=\min _{i=1,2, \ldots, N} \widehat{\gamma}_{i}$

几何间隔

给定一个超平面 $（ w, b ）$ ，定义该超平面关于样本点 $x_i,y_i )$ 的几何间隔为： $\gamma_{i}=y_{i}\left(\frac{w^{T}}{\|w\|} x_{i}+\frac{b}{\|w\|}\right)$
定义该超平面关于训练集 $T$ 的几何间隔为： $\gamma=\min _{i=1,2, \ldots, N} \gamma_{i}$

函数间隔与几何间隔的关系

$\begin{array}{c}{\gamma_{i}=\frac{\hat{\gamma}_{i}}{\|w\|}, i=1,2, \ldots, N} \\ {\gamma=\frac{\hat{\gamma}}{\|w\|}}\end{array}$

注意要点第一点

函数间隔是相对距离，几何间隔是绝对距离，也就是说，一个点 $x_1$ 离分割平面的函数距离可以是0.5，1，2，4， $x_2$ 离分割平面的函数距离是1，2，4，8，而 $x_1$ 的几何距离只能是1， $x_2$ 的几何距离只能是2，所以说整个hard-margin SVM的思想就是找到最小的函数间隔，也就是离分割平面最近的点，然后最大化它到分割平面的绝对距离。
如果超平面参数w和b成比例地改变（此时超平面没有改变），则函数间隔也按此比例改变，而几何间隔不变。故我们可以用几何间隔来度量我们是否对样本点正确分类以及样本点里超平面的距离，借此将SVM的基本思想形式化为某个最优化问题。

将其形式化：求得一个几何间隔最大的分离超平面，可以表示为如下的最优化问题：
$\begin{array}{c}{\max _{w, b} \gamma} \\ {\text {s.t.} y_{i}\left(\frac{w^{T}}{\|w\|} x_{i}+\frac{b}{\|w\|}\right) \geq \gamma, i=1,2, \ldots, N}\end{array}$

即我们希望最大化超平面关于训练数据集的几何间隔?，约束条件表示的是超平面关于每个训练样本点的几何间隔至少是?。

考虑函数间隔与几何间隔的关系式，改写为：

$\begin{array}{c}{\max _{w, b} \frac{\hat{\gamma}}{\|w\|}} \\ {\text {s.t. } y_{i}\left(w^{T} x_{i}+b\right) \geq \hat{\gamma}, i=1,2, \ldots, N}\end{array}$

函数间隔? ̂的取值不影响最优化问题的解。因为若超平面参数w和b成比例地改变（此时超平面没有改变），则函数间隔? ̂也按此比例改变。故我们可以固定住函数间隔? ̂为1。可得到最优化问题：

$\begin{array}{c}{\max _{w, b} \frac{1}{\|w\|}} \\ {\text {s.t. } 1-y_{i}\left(w^{T} x_{i}+b\right) \leq 0, i=1,2, \ldots, N}\end{array}$

注意到最大化 $\frac{1}{\|w\|}$ 和最小化 $\frac{1}{2}\|w\|^{2}$ 是等价的，故最优化问题可转化为：

$\begin{array}{c}{\min _{w, b} \frac{1}{2}\|w\|^{2}} \\ {\text {s.t. } 1-y_{i}\left(w^{T} x_{i}+b\right) \leq 0, i=1,2, \ldots, N}\end{array}$

构造Lagrange函数：
$\begin{aligned} L(w, b, \alpha)=& \frac{1}{2}\|w\|^{2}+\sum_{i=1}^{N} \alpha_{i}\left[1-y_{i}\left(w^{T} x_{i}+b\right)\right] \\ \alpha_{i} & \geq 0, i=1,2, \ldots, N \end{aligned}$

令 $\theta_{\alpha}(w, b)=\max _{\alpha_{i} \geq 0} L(w, b, \alpha)$

则有 $\theta_{\alpha}(w, b)=\left\{\begin{array}{c}{\frac{1}{2}\|w\|^{2},当全部约束满足} \\ {+\infty，当存在约束不满足}\end{array}\right.$

故原问题等价于
$\min _{w, b} \theta_{\alpha}(w, b)=\min _{w, b} \max _{\alpha_{i} \geq 0} L(w, b, \alpha)$

注意要点第二点
如果不满足约束条件, $\theta(w)=\max _{\alpha_{i} \geq 0} \mathcal{L}(w, b, \alpha)$ 就会趋向于无穷大，自然 $\min _{w, b} \theta(w)$ 也不会有解，相反如果 $\min _{w, b} \theta(w)$ 有解，说明约束条件必满足，因此原问题等价于 $\min _{w, b} \theta_{\alpha}(w, b)=\min _{w, b} \max _{\alpha_{i} \geq 0} L(w, b, \alpha)$

根据拉格朗日对偶性，上式的对偶问题为：
$\min _{w, b} \theta_{\alpha}(w, b)= \max _{\alpha_{i} \geq 0}\min _{w, b} L(w, b, \alpha)$

又由于原问题满足Slater Condition，这里不用深究什么是Slater 定理，感兴趣的可以在wiki在搜索了解，默认一般我们处理的问题这个定理能成立就可以了，故原问题与对偶问题的最优值相等，在李航老师的《统计学习方法》中，提到假设目标函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数，关于仿射函数，只要理解成线性函数就可以了，这个条件的作用是最优解唯一，不会存在鞍点的情况使得原问题和对偶问题的解不唯一，同时满足这些个条件的解还满足KKT条件，而且是充要条件。这样利用KKT条件求解对偶问题的解，即相当于求解出了原问题。为了得到对偶问题的解，需要先求 ?(?,?,?)对?,?的极小，再求对?的极大。

求 $\min _{w, b} L(w, b, \alpha)$
将拉格朗日函数?(?,?,?)分别对?,?求偏导并令其等于0，可得

$\nabla_{w} L(w, b, \alpha)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0$

$\nabla_{b} L(w, b, \alpha)=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0$

得

$w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}$

$\sum_{i=1}^{N} \alpha_{i} y_{i}=0$

将以上两式代入?(?,?,?)中消去?,?，得
$\begin{aligned} L(w, b, \alpha) &=\frac{1}{2}\|w\|^{2}+\sum_{\mathrm{i}=1}^{N} \alpha_{i}\left[1-y_{i}\left(w^{T} x_{i}+b\right)\right] \\ &=\frac{1}{2} w^{T} w+\sum_{i=1} \alpha_{i}-\sum_{i=1}^{N} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{N} \alpha_{i} y_{i} b \\ &=\frac{1}{2} w^{T} w+\sum_{i=1}^{N} \alpha_{i}-w^{T} w \\ &=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle x_{i}, x_{j}\right\rangle+\sum_{i=1}^{\mathrm{N}} \alpha_{i} \end{aligned}$

注意要点第三点
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} x_{i}+b\right)-1\right)$

$=\frac{1}{2} w^{T} w-\sum_{i=1}^{n} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{n} \alpha_{i} y_{i} b+\sum_{i=1}^{n} \alpha_{i}$

$=\frac{1}{2} w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-\sum_{i=1}^{n} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{n} \alpha_{i} y_{i} b+\sum_{i=1}^{n} \alpha_{i}$

$=\frac{1}{2} w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-\sum_{i=1}^{n} \alpha_{i} y_{i} b+\sum_{i=1}^{n} \alpha_{i}$

$=-\frac{1}{2} w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-\sum_{i=1}^{n} \alpha_{i} y_{i} b+\sum_{i=1}^{n} \alpha_{i}$

$=-\frac{1}{2} w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i}$

$=-\frac{1}{2}\left(\sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}\right)^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i}$

$=-\frac{1}{2} \sum_{i=1}^{n} \alpha_{i} y_{i}\left(x_{i}\right)^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i}$

$=-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} y_{i}\left(x_{i}\right)^{T} \alpha_{j} y_{j} x_{j}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i}$

$\mathcal{L}(w, b, \alpha)=\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}^{T}-\sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i}$

$=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}$

即
$\min _{w, b} L(w, b, \alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle x_{i}, x_{j}\right\rangle+\sum_{i=1}^{\mathrm{N}} \alpha_{i}$

再 $\min _{w, b} L(w, b, \alpha)$ 求对?的极大，即是对偶问题

$\begin{aligned} \max _{\alpha} &-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle x_{i}, x_{j}\right\rangle+\sum_{i=1}^{\mathrm{N}} \alpha_{i} \\ \text {s.t.} & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ \alpha_{i} & \geq 0, i=1,2, \ldots, N \end{aligned}$

将极大改为极小，得

${\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle x_{i}, x_{j}\right\rangle-\sum_{i=1}^{\mathrm{N}} \alpha_{i}}$

$\sum_{i=1}^{N} \alpha_{i} y_{i}=0$

$\alpha_{i} \geq 0, i=1,2, \ldots, N$

原问题的对偶问题：
$\begin{aligned} \min _{\alpha} & \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle x_{i}, x_{j}\right\rangle-\sum_{i=1}^{\mathrm{N}} \alpha_{i} \\ \text {s.t.} & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geq 0, i=1,2, \ldots, N \end{aligned}$

求解方法：
（1）由于该问题为凸优化问题，故可直接求解。
（2）由于该问题与其原问题等价，其原问题满足Slater定理，故该问题的解与KKT条件为充分必要的关系，故只需找到一组解满足KKT条件，即找到了问题的解（充分性）。

关于对偶问题的解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \ldots, \alpha_{N}^{*}\right)$ ，是由SMO算法解出来的，这个结合加入松弛变量的情况再讲。

解出对偶问题的解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \ldots, \alpha_{N}^{*}\right)$ 后，怎么求原问题的解 $w^{*}, b^{*}$ ？

由KKT条件可知，原问题和对偶问题均取到最优值的解 $\left(w^{*}, b^{*}, \alpha^{*}\right)$ 需满足以下四个要求：

对原始变量梯度为0：
$\nabla_{w} L\left(w^{*}, b^{*}, \alpha^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$
$\nabla_{b} L\left(w^{*}, b^{*}, \alpha^{*}\right)=-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}=0$
原问题可行：
$1-y_{i}\left(w^{* T} x_{i}+b^{*}\right) \leq 0, i=1,2, \ldots, N$
不等式约束乘子非负:
$\alpha_{i}^{*} \geq 0, i=1,2, \ldots, N$
对偶互补松弛：
$\alpha_{i}^{*}\left[1-y_{i}\left(w^{* T} x_{i}+b^{*}\right)\right]=0, i=1,2, \dots, N$

由于1中
$\nabla_{w} L\left(w^{*}, b^{*}, \alpha^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$

得到
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$
这样 $w^{*}$ 就求出来了

用反证法我们可以得到至少有一个 $\alpha_{i}^{*}>0$ ，假设所有的 $\alpha_{i}^{*}=0$ ，由 $w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$ 知道， $w^{*}=0$ ，而 $w^{*}=0$ 显然不是原问题的解，我们要零解一点意义都没有。

接下来，求 $b^{*}$
取 $\alpha_{i}^{*}$ 的一个分量满足 $\alpha_{i}^{*}>0$ ，则有对应的由4中的 $\alpha_{i}^{*}\left[1-y_{i}\left(w^{* T} x_{i}+b^{*}\right)\right]=0, i=1,2, \dots, N$ ，有 $1-y_{j}\left(w^{* T} x_{j}+b^{*}\right)=0$

代入 $w^{*}$ 和样本点 $x_j,y_j)$ ，求出
$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left\langle x_{i}, x_{j}\right\rangle$

这样超平面的两个参数 $w^{*},b^{*})$ 就都求出来了
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$
$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left\langle x_{i}, x_{j}\right\rangle$

至于为什么SVM叫支持向量机，因为我们发现只有 $\alpha_{i}^{*}>0$ 时，对应的样本 $x_i,y_i)$ 才会对最终超平面的结果产生影响，此时 $1-y_{i}\left(w^{* T} x_{i}+b^{*}\right)=0$ ，也就是函数间隔为1，我们称这类样本为支持向量，所以这个模型被叫做支持向量机。支持向量的个数一般很少，所以支持向量机只有很少的“重要的”训练样本决定。

如果数据线性不可分，但是近似线性可分，我们需要给超平面犯错的机会，但是犯错不能无休止地犯错，我们只允许它们在一定的误差范围内误判样本点，这就是所谓的软间隔 soft-margin SVM.

我们对每个样本点 $x_i,y_i)$ 引入一个松弛变量 $\xi_{i}>0$ ，使函数间隔加上松弛变量大于等于1。

与此同时，我们的目标函数，也就是我们的Loss，也要对这种误判的可能增加代价项，对每个松弛变量 $\xi_{i}$ ，支付一个代价 $\xi_{i}$ (why?因为本身 $\xi_{i}$ 越大，分类器就越糟糕，所以Loss就应该越大，所以是合理的)

因此目标函数变为： $\frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$
其中 $C > 0$ 为惩罚参数

和hard-margin一样，它的最优化问题是

$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$

$s.t.y_{i}\left(w^{T} x_{i}+b\right) \geq 1-\xi_{i}, i=1,2, \ldots, N$

$\xi_{i} \geq 0, i=1,2, \ldots, N$

同样满足Slater Condition，同样利用拉格朗日乘子法求出其对偶问题。

构造拉格朗日函数:
$\xi, \alpha, \mu)=\quad \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}+\sum_{i=1}^{N} \alpha_{i}\left[1-\xi_{i}-y_{i}\left(w^{T} x_{i}+b\right)\right]+\sum_{i=1}^{N} \mu_{i}\left(-\xi_{i}\right)$
其中 $\alpha$ 、 $\mu$ 为拉格朗日乘子， $\alpha\geq0,\mu\geq0$ 。

同理和soft-margin一样，为了求出使 $L$ 最小的 $w 、 b$ 和 $\xi$ ，分别对它们求导

$\frac{\partial L}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{n} \alpha_{i} y_{i} x_{i}$

$\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{i=1}^{n} \alpha_{i} y_{i}=0$

$\frac{\partial L}{\partial \xi_{i}}=0 \Rightarrow C-\alpha_{i}-r_{i}=0, \quad i=1, \ldots, n$

注意到， $r_i\geq0$ 和 $C-\alpha_{i}-r_{i}=0$ ，可以推出 $\alpha_{i} \leq C$ ，所以对偶问题就变成：

$\max _{\alpha} \sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}$

s.t. $\begin{array}{l}{0 \leq \alpha_{i} \leq C, i=1, \ldots, n} \\ {\sum_{i=1}^{n} \alpha_{i} y_{i}=0}\end{array}$

$x_{i}^{T} x_{j}$ 和之前写成内积的形式是一样的

求解方法：
（1）由于该问题为凸优化问题，故可直接求解
（2）由于该问题与其原问题等价，其原问题满足Slater定理，故该问题的解与KKT条件为充分必要的关系，故只需找到一组解满足KKT条件，即找到了问题的解（充分性）。

解出对偶问题的解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \ldots, \alpha_{\mathrm{N}}^{*}\right)$ 后，怎么求原问题的解 $\mathrm{w}^{*}, \mathrm{b}^{*}$ ?

同样利用KKT条件即可
① 对原始变量梯度为0：
$\nabla_{w} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0$
$\nabla_{b} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}=0$
$\nabla_{\xi} L\left(w^{*}, b^{*}, \xi^{*}, \alpha^{*}, \mu^{*}\right)=C-\alpha_{i}^{*}-\mu_{i}^{*}=0$
② 原问题可行：
$1-\xi_{i}^{*}-y_{i}\left(w^{T} x_{i}+b\right) \leq 0, i=1,2, \ldots, N$
$-\xi_{i}^{*} \leq 0, i=1,2, \ldots, N$
③ 不等式约束乘子非负：
$\begin{aligned} \alpha_{i}^{*} & \geq 0, i=1,2, \ldots, N \\ \mu_{i}^{*} & \geq 0, i=1,2, \ldots, N \end{aligned}$
④ 对偶互补松弛：
$\begin{array}{c}{\alpha_{i}^{*}\left[1-\xi_{i}^{*}-y_{i}\left(w^{T} x_{i}+b\right)\right]=0, i=1,2, \ldots, N} \\ {\mu_{i}^{*} \xi_{i}^{*}=0, i=1,2, \ldots, N}\end{array}$

综上
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$
取 $\alpha^{*}$ 的一个分量满足 $0<\alpha^{*}<C$ ，则有对应的
$\xi_{j}^{*}=0$
$1-y_{j}\left(w^{* T} x_{j}+b^{*}\right)=0$

代入 $w^{*}$ 和样本点 $x_j,y_j)$ ，求出
$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left\langle x_{i}, x_{j}\right\rangle$

关于支持向量
从上面的KKT条件我们选取这几个：
$\begin{array}{c}{0 \leq \alpha_{i} \leq C, i=1,2, \ldots, N} \\ {\alpha_{i}^{*}\left[1-\xi_{i}^{*}-y_{i}\left(w^{T} x_{i}+b\right)\right]=0, i=1,2, \ldots, N} \\ {C-\alpha_{i}^{*}-\mu_{i}^{*}=0} \\ {\mu_{i}^{*} \xi_{i}^{*}=0, i=1,2, \ldots, N}\end{array}$

(1) 当 $0<\alpha^{*}<C$ 时，有 $\mu_{i}^{*}>0$ ， $\xi_{i}^{*}=0$ ，则 $y_{i}\left(w^{T} x_{i}+b\right)=1$ ，此时支持向量恰好落在间隔边界上；
(2)当 $\alpha^{*}=C$ 时，有 $\mu^{*}=0$ ，此时：
① 当 $0<\xi_{i}^{*}<1$ 时， $0<y_{i}\left(w^{T} x_{i}+b\right)<1$ ，支持向量在间隔边界与超平面之间；
② 当 $\xi_{i}^{*}=1$ 时， $y_{i}\left(w^{T} x_{i}+b\right)=0$ ，支持向量在超平面上；
③ 当 $\xi_{i}^{*}>1$ 时， $y_{i}\left(w^{T} x_{i}+b\right)<0$ ，支持向量在误分一测。
(3))当 $\alpha^{*}=0$ 时，无法判断。

实际上线性SVM也可以通过梯度下降法去求解
$\begin{array}{c}{\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{\mathrm{i}}} \\ {\text {s.t. } y_{i}\left(w^{T} x_{i}+b\right) \geq 1-\xi_{i}, i=1,2, \ldots, N} \\ {\xi_{i} \geq 0, i=1,2, . ., N}\end{array}$
等价于最优化问题：
$\min _{w, b} \sum_{i=1}^{N} \max \left(0,1-y_{i}\left(w^{T} x_{i}+b\right)\right)+\lambda\|w\|^{2}$
只要把 $\left(0,1-y_{i}\left(w^{T} x_{i}+b\right)\right)=\xi_{i}$ ，它就满足约束条件，再让 $\lambda=\frac{1}{2C}$ 即可，具体证明在《统计学习方法》定理7.4

SMO算法

回顾上面soft-margin 我们怎么算 $\alpha$
$\begin{array}{c}{\min _{\alpha} \Psi(\vec{\alpha})=\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} y_{i} y_{j} K\left(\vec{x}_{i}, \vec{x}_{j}\right) \alpha_{i} \alpha_{j}-\sum_{i=1}^{N} \alpha_{i}} \\ {0 \leq \alpha_{i} \leq C, \forall i} \\ {\sum_{i=1}^{N} y_{i} \alpha_{i}=0}\end{array}$

我们要解决的问题是：在 $\alpha_{i}=\left\{\alpha_{1}, \alpha_{2}, \alpha_{3}, \dots, \alpha_{n}\right\}$ 上求上述目标函数的最小值。为了求解这些乘子，每次从中任意抽取两个乘子 $\alpha_{1}$ 和 $\alpha_{2}$ ，然后固定 $\alpha_{1}$ 和 $\alpha_{2}$ 以外的其它乘子 $\left\{\alpha_{3}, \dots, \alpha_{n}\right\}$ ，使得目标函数只是关于 $\alpha_{1}$ 和 $\alpha_{2}$ 的函数。这样，不断的从一堆乘子中任意抽取两个求解，不断的迭代求解子问题，最终达到求解原问题的目的。

注意到 $y_{i}$ 只有-1、+1，故有 $y_{i}^{2}=1$
$\min \Psi\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2}-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2}+constant$
$v_{i}=\sum_{j=3}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right), i=1,2$

对于之前的约束 $\sum_{i=1}^{N} y_{i} \alpha_{i}=0$
令 $\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} \alpha_{i} y_{i}=\zeta$
有 $\alpha_{1} y_{1}^{2}+\alpha_{2} y_{2}y_{1}=-y_{1}\sum_{i=3}^{N} \alpha_{i} y_{i}=y_{1}\zeta$
所以
$\alpha_{1}=\left(\zeta-y_{2} \alpha_{2}\right) y_{1}$
代回目标函数
$\min \Psi\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2}-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2}+constant$
因为Constant不影响目标函数的优化可以去掉
得到
$\min \Psi\left(\alpha_{2}\right)=\frac{1}{2} K_{11}\left(\zeta-\alpha_{2} y_{2}\right)^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{2} K_{12}\left(\zeta-\alpha_{2} y_{2}\right) \alpha_{2}-\left(\zeta-\alpha_{2} y_{2}\right) y_{1}-\alpha_{2}+v_{1}\left(\zeta-\alpha_{2} y_{2}\right)+y_{2} v_{2} \alpha_{2}$
对 $\alpha_{2}$ 求偏导，且令为0，求取得极小值是 $\alpha_{2}$ 的值：
$\frac{\partial \Psi\left(\alpha_{2}\right)}{\partial \alpha_{2}}=\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}-K_{11} \zeta y_{2}+K_{12} \zeta y_{2}+y_{1} y_{2}-1-v_{1} y_{2}+v_{2} y_{2}=0$

由上式中假设求得了 $\alpha_{2}$ 的解，代回 $\alpha_{1}=\left(\zeta-y_{2} \alpha_{2}\right) y_{1}$ 中求得 $\alpha_{1}$ 的解，分别记为 $\alpha_{1}^{new},\alpha_{2}^{new}$ ，优化前的解记为 $\alpha_{1}^{old},\alpha_{2}^{old}$ ，由于参数 $\alpha_{3}, \alpha_{4}, \dots, \alpha_{N}$ 固定，由于等式约束 $\sum_{i=1}^{N} y_{i} \alpha_{i}=0$ ，有 $\alpha_{1}^{\text { old }} y_{1}+\alpha_{2}^{\text { old }} y_{2}=-\sum_{i=3}^{N} \alpha_{i} y_{i}=\alpha_{1}^{\text { new }} y_{1}+\alpha_{2}^{\text { new }} y_{2}=\zeta$
于是
$\zeta=\alpha_{1}^{o l d} y_{1}+\alpha_{2}^{o l d} y_{2}$

在上面我们已经推到了
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$
由于当前的 $\alpha_{i}$ 并不最优解 $\alpha^{*}$
所以当前轮次的超平面 $f(x)=w^{T} x+b$ ，可以写成 $f(x)=\sum_{i=1}^{N} \alpha_{i} y_{i} K\left(x_{i}, x\right)+b$
$f\left(x_{i}\right)$ 表示样本 $x_{i}$ 的预测值, $y_{i}$ 表示样本 $x_{i}$ 的真实值，定义 $E_{i}$ 表示预测值与真实值之差为:
$E_{i}=f\left(x_{i}\right)-y_{i}$

由于 $v_{i}=\sum_{j=3}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right), i=1,2$
所以有
$v_{1}=f\left(x_{1}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{1 j}-b$

$v_{2}=f\left(x_{2}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{2 j}-b$

把 $\zeta,v_{1},v_{2}$ 代入
$\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}-K_{11} \zeta y_{2}+K_{12} \zeta y_{2}+y_{1} y_{2}-1-v_{1} y_{2}+v_{2} y_{2}=0$

这时求出来的 $\alpha_{2}^{new}$ 未考虑约束问题，记为 $\alpha_{2}^{n e w, u n c l i p p e d}$
化简得
$\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{{ new, unclipped }}=\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text { old }}+y_{2}\left[y_{2}-y_{1}+f\left(x_{1}\right)-f\left(x_{2}\right)\right]$
记 $\eta=K_{11}+K_{22}-2 K_{12}$
则有
$\alpha_{2}^{ { new, unclipped }}=\alpha_{2}^{o l d}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta}$

现在考虑带上约束条件
$\begin{array}{l}{0 \leq \alpha_{i=1,2} \leq C} \\ {\alpha_{1} y_{1}+\alpha_{2} y_{2}=\zeta}\end{array}$

在这里插入图片描述
这里 $k$ 相当于 $\zeta$ ，因为 $y_{i},i=1,2$ 只有 $+, 1 - 1$ 两种选择
最优解必须要在方框内且在直线上取得，因此 $\leq \alpha_{2}^{n e w} \leq H$
当 $y_{1} \neq y_{2}$ 时， $L=\max \left(0, \alpha_{2}^{o l d}-\alpha_{1}^{o l d}\right) ; H=\min \left(C, C+\alpha_{2}^{o l d}-\alpha_{1}^{o l d}\right)$
当 $y_{1} = y_{2}$ 时， $L=\max \left(0, \alpha_{1}^{o l d}+\alpha_{2}^{o l d}-C\right) ; H=\min \left(C, \alpha_{2}^{o l d}+\alpha_{1}^{o l d}\right)$
综上
$\alpha_{2}^{\text { new }}=\left\{\begin{array}{c}{\mathrm{H}, \alpha_{2}^{\text { new, unclipped }}>H} \\ {\alpha_{2}^{\text { new, unclipped }}, L \leqslant \alpha_{2}^{\text { new, unclipped }} \leqslant H} \\ {\mathrm{L}, \alpha_{2}^{\text { new, unclipped }}<L}\end{array}\right.$

由 $\alpha_{1}^{o l d} y_{1}+\alpha_{2}^{o l d} y_{2}=\zeta=\alpha_{1}^{n e w} y_{1}+\alpha_{2}^{n e w} y_{2}$

$\alpha_{1}^{n e w}=\alpha_{1}^{o l d}+y_{1} y_{2}\left(\alpha_{2}^{o l d}-\alpha_{2}^{n e w}\right)$

关于临界情况请看https://blog.youkuaiyun.com/luoshixian099/article/details/51227754#commentBox

如何选择变量 $\alpha_{1},\alpha_{2}$
SMO是一种启发式算法，如果所有变量的解都满足KKT条件，那么它们就是最优解了，所以SMO算法在每个子问题中选择两个要优化的变量，其中至少一个是违反KKT条件的。

SMO称选择第一个变量的过程为外层循环，外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第一个变量，具体地，检验训练样本点 $x_{i},y_{i})$ 是否满足KKT条件，即
$\alpha_{i}=0 \Leftrightarrow y_{i} g\left(x_{i}\right) \geqslant 1$
$0<\alpha_{i}<C \Leftrightarrow y_{i} g\left(x_{i}\right)=1$
$\alpha_{i}=C \Leftrightarrow y_{i} g\left(x_{i}\right) \leqslant 1$

其中， $g\left(x_{i}\right)=\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)+b$
该检验在 $\epsilon$ 范围内进行，外层循环先遍历所有满足条件的 $0<\alpha_{i}<C$ 样本点，即在间隔边界上的支持向量点，检验是否满足KKT条件。如果这些样本点都满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件。

第二个变量的选择是希望能使 $\alpha_{2}$ 由足够大的变化。
$\alpha_{2}^{new}$ 是依赖于 $\left|E_{1}-E_{2}\right|$ 的，一般是通过内层循环选择使 $\left|E_{1}-E_{2}\right|$ 最大的 $\alpha_{2}$
在特殊情况下，如果内层循环选择的 $\alpha_{2}$ 不能使目标函数有足够的下降，那么就遍历在间隔边界上的支持向量点，依次作为 $\alpha_{2}$ 试用，直到目标函数有足够的下降，如果还是找不到，就遍历整个训练集，依然找不到就放弃这个 $\alpha_{1}$ ，通过外层循环寻找另外的 $\alpha_{1}$

在每次完成两个变量的优化后，都要重新计算阈值 $b$ ,
如果 $0<\alpha_{1}^{n e w}<C$ ，由KKT条件 $y_{1}\left(w^{T} x_{1}+b\right)=1$ ，有 $\sum_{i=1}^{N} \alpha_{i} y_{i} K_{i 1}+b=y_{1}$ 可得
$b_{1}^{n e w}=y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}-\alpha_{1}^{n e w} y_{1} K_{11}-\alpha_{2}^{n e w} y_{2} K_{21}$

由 $y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}=-E_{1}+\alpha_{1}^{o l d} y_{1} K_{11}+\alpha_{2}^{o l d} y_{2} K_{11}+b^{o l d}$

得到
$b_{1}^{n e w}=-E_{1}-y_{1} K_{11}\left(\alpha_{1}^{n e w}-\alpha_{1}^{a d}\right)-y_{2} K_{21}\left(\alpha_{2}^{n e w}-\alpha_{2}^{o l d}\right)+b^{o l d}$

同样，如果 $0<\alpha_{2}^{n e w}<C$ ，则有
$b_{2}^{n e w}=-E_{2}-y_{1} K_{12}\left(\alpha_{1}^{n e w}-\alpha_{1}^{o l d}\right)-y_{2} K_{22}\left(\alpha_{2}^{n e w}-\alpha_{2}^{o l d}\right)+b^{o l d}$

如果同时满足 $0<\alpha_{i}^{n e w}<C,i=1,2$ ，则 $b_{1}^{n e w}=b_{2}^{n e w}$

如果 $\alpha_{1}^{new},\alpha_{2}^{new}$ 是0或者 $C$ ，那么 $b_{1}^{new},b_{2}^{new}$ 以及它们之间的数都满足KKT阈值条件，这时选择它们的中点。

核技巧
基本思想：找一个映射Φ（一般为高维映射），将样本点特征?映射到新的特征空间Φ(?)，使其在新的特征空间中线性可分（或近似线性可分），然后利用之前的SVM算法在新的特征空间中对样本进行分类。
在这里插入图片描述
流程：
输入训练集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right)\right\}$ 其中 $x_{i} \in R^{n}, y_{i} \in\{-1,+1\}$
（1）选择合适的映射函数Φ，将训练集?映射为
$T=\left\{\left(\Phi\left(x_{1}\right), y_{1}\right),\left(\Phi\left(x_{2}\right), y_{2}\right), \ldots,\left(\Phi\left(x_{n}\right), y_{n}\right)\right\}$
（2）选择惩罚参数C，构造并求解约束最优化问题（原问题的对偶问题）
$\min_{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left\langle\Phi\left(x_{i}\right), \Phi\left(x_{j}\right)\right\rangle-\sum_{i=1}^{\mathrm{N}} \alpha_{i}$
$\begin{aligned} \text { s.t. } & \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & 0 \leq \alpha_{i} \leq C, i=1,2, \ldots, N \end{aligned}$
求得最优解 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \ldots, \alpha_{N}^{*}\right)^{T}$
（3）计算 $W^{*}, b^{*}$ :
$w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} \Phi\left(x_{i}\right)$
选择 $a^{*}$ 的一个分量满足 $0<\alpha_{i}^{*}<C$ ，计算
$b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left\langle\Phi\left(x_{i}\right), \Phi\left(x_{j}\right)\right\rangle$
（4）求得分离超平面和分类决策函数：
$w^{* T} \Phi(x)+b^{*}=0$
$f(x)=\operatorname{sign}\left(w^{* T} \Phi(x)+b^{*}\right)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left\langle\Phi(x), \Phi\left(x_{i}\right)\right\rangle+ b^{*}\right)$

该算法的问题：
（1）合适的映射函数?太难找，几乎找不到
（2）假设找到了映射函数?，由于将数据映射到高维，在高维空间中做运算，计算量太大（维数灾难）

改进：
考虑到算法中如果不需写出分离超平面，即不需写出 $w^{∗}$ ，而是直接用 $f(x)=\operatorname{sign}\left(w^{* T} \Phi(x)+b^{*}\right)=\operatorname{sign}\left(\alpha_{i}^{*} y_{i}\left\langle\Phi(x), \Phi\left(x_{j}\right)\right\rangle+ b^{*}\right)$ 来做预测，同样可以给出分类边界以及达到预测目的。这样的话，算法中需要用到样本的地方全部以内积形式出现，如果我们能够找到一种函数，能够在低维空间中直接算出高维内积，并且该函数对应着某个映射，即解决了以上两个问题。

核函数的定义：
设?是输入空间（欧式空间的子集或离散集合），设ℋ为特征空间（希尔伯特空间），如果存在一个从?到ℋ的映射Φ(?):?→ℋ,使得对所有的?,?∈?，函数?(?,?)满足条件?(?,?)=⟨Φ(?),Φ(?)⟩,则称?(?,?)为核函数，Φ(?)为映射函数。

核函数的本质：用相似度函数重新定义内积运算。

什么样的函数可以作为核函数？
核函数对应的Gram矩阵为半正定矩阵。

常用的核函数:

线性核函数（linear kernel） $K(x, z)=x^{T} z$
多项式核函数（polynomial kernel function） $z)=\left(\gamma x^{T} z+r\right)^{p}$
高斯核函数（ Gaussian kernel function ） $z)=\exp \left(-\gamma\|x-z\|^{2}\right)$
Sigmoid核函数
拉普拉斯核函数
字符串核函数

面试真题

SVM 为什么采用间隔最大化
当训练数据线性可分时，存在无穷个分离超平面可以将两类数据正确分开。感知机利用误分类最小策略，求得分离超平面，不过此时的解有无穷多个。线性可分支持向量机利用间隔最大化求得最优分离超平面，这时，解是唯一的。另一方面，此时的分隔超平面所产生的分类结果是最鲁棒的，对未知实例的泛化能力最强。可以借此机会阐述一下几何间隔以及函数间隔的关系。

为什么要将求解 SVM 的原始问题转换为其对偶问题
一是对偶问题往往更易求解，当我们寻找约束存在时的最优点的时候，约束的存在虽然减小了需要搜寻的范围，但是却使问题变得更加复杂。为了使问题变得易于处理，我们的方法是把目标函数和约束全部融入一个新的函数，即拉格朗日函数，再通过这个函数来寻找最优点。二是可以自然引入核函数，进而推广到非线性分类问题。

为什么 SVM 要引入核函数
当样本在原始空间线性不可分时，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。而引入这样的映射后，所要求解的对偶问题的求解中，无需求解真正的映射函数，而只需要知道其核函数。核函数的定义：K(x,y)=<ϕ(x),ϕ(y)>，即在特征空间的内积等于它们在原始样本空间中通过核函数 K 计算的结果。一方面数据变成了高维空间中线性可分的数据，另一方面不需要求解具体的映射函数，只需要给定具体的核函数即可，这样使得求解的难度大大降低。

为什么SVM对缺失数据敏感
这里说的缺失数据是指缺失某些特征数据，向量数据不完整。SVM 没有处理缺失值的策略。而 SVM 希望样本在特征空间中线性可分，所以特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。

SVM 核函数之间的区别
一般选择线性核和高斯核，也就是线性核与 RBF 核。线性核：主要用于线性可分的情形，参数少，速度快，对于一般数据，分类效果已经很理想了。 RBF 核：主要用于线性不可分的情形，参数多，分类结果非常依赖于参数。有很多人是通过训练数据的交叉验证来寻找合适的参数，不过这个过程比较耗时。如果 Feature 的数量很大，跟样本数量差不多，这时候选用线性核的 SVM。如果 Feature 的数量比较小，样本数量一般，不算大也不算小，选用高斯核的 SVM。

作者：力扣（LeetCode）
链接：https://zhuanlan.zhihu.com/p/43827793
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

LR和SVM的联系与区别
联系： 1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题） 2、两个方法都可以增加不同的正则化项，如l1、l2等等。所以在很多实验中，两种算法的结果是很接近的。区别：1、LR是参数模型，SVM是非参数模型。 2、从目标函数来看，区别在于逻辑回归采用的是logistical loss，SVM采用的是hinge loss，这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。 3、SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。 4、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。 5、logic 能做的 svm能做，但可能在准确率上有问题，svm能做的logic有的做不了。

作者：七月在线
链接：https://zhuanlan.zhihu.com/p/57947723
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

参考文献
感谢他们使我进步