线性可分支持向量机思想与公式推导_写出线性可分支持向量机学习的最优化问题表达式。简述其基本思想。-优快云博客

本文深入探讨了支持向量机(SVM)的基本思想及其实现过程，包括最大间隔超平面的概念、函数间隔与几何间隔的区别，以及如何从原始问题推导到对偶问题来求解最优解。

1、SVM思想利用间隔最大化求最优分离超平面（唯一解，总是比当前坐标轴少一个维度）：

wTx+b=0 $\large {w^T}x + b = 0$

以及相应的决策函数：

f(x)=sign(wTx+b) $\large f(x) = sign({w^T}x + b)$

将不同类别的样本分开，使超平面正样本一侧所有的点满足 $f(x) = {w^T}x + b \ge 1$ ，负样本一侧所有的点满足 $f(x) = {w^T}x + b \le - 1$ ，最终任何一侧的点都满足 ${y_i}({w^T}{x_i} + b) \ge 1$ 。其中，距离超平面最近的点称为支持向量，超平面是仅由支持向量确定的。
Q1：为什么根据间隔最大原则找划分超平面？
A1：分割线由极少数的几个点（支持向量）决定；
距离分割线越远，则分类的准确性越高；
给模糊的点留下了最大的空间，容错率更高。
2、函数间隔和几何间隔
1）函数间隔
a.定义超平面 $(w,b)$ 关于样本点 $({x_i},{y_i})$ 的函数间隔为：

γi−=yi(wTxi+b) $\large \mathop {{\gamma _i}}\limits^- = {y_i}({w^T}{x_i} + b)$

b.定义超平面 $(w,b)$ 关于训练集的函数间隔为超平面关于训练集中所有样本点的函数间隔的最小值：

γ−=min(i=1,⋯,N)γi− $\large \mathop \gamma \limits^- = \mathop {\min }\limits_{(i = 1, \cdots ,N)} \mathop {{\gamma _i}}\limits^-$

2）几何间隔
a.定义超平面 $(w,b)$ 关于样本点 $({x_i},{y_i})$ 的几何间隔为：

γi=yi(wTxi+b∥w∥) $\large {\gamma _i} = {y_i}(\frac{{{w^T}{x_i} + b}}{{\left\| w \right\|}})$

b. 定义超平面 $(w,b)$ 关于训练集的几何间隔为超平面关于训练集中所有样本点的几何间隔的最小值：

γ=min(i=1,⋯,N)γi $\large \gamma = \mathop {\min }\limits_{(i = 1, \cdots ,N)} {\gamma _i}$

3）函数间隔和几何间隔的关系

⎧⎩⎨⎪⎪γi=γi−∥w∥γ=γ−∥w∥ $\large \left\{ \begin{array}{l} {\gamma _i} = \frac{{\mathop {{\gamma _i}}\limits^- }}{{\left\| w \right\|}}\\ \gamma = \frac{{\mathop \gamma \limits^- }}{{\left\| w \right\|}} \end{array} \right.$

Q2：为什么选择几何间隔而不选择函数间隔作为优化对象？
A2：若选取函数间隔作为最优化目标，则当超平面固定后，我们可以等比例地缩放 $w$ 和 $b$ ，这样可以使得函数间隔 $y({w^T}x + b)$ 的值任意大，而超平面位置不变。几何间隔则没有这个问题，因为除上了 $\left\| w \right\|$ 这个分母，所以缩放 $w$ 和 $b$ 的时候，几何间隔 $\gamma$ 的值是不会改变的，它只随着超平面的变动而变动。因此，几何间隔更适合被用来作间隔最大化的优化对象。
3、问题形式化
求一个几何间隔最大的分离超平面可以表示为如下的约束最优化问题：

⎧⎩⎨max(w,b)γs.t.yi(wTxi+b)∥w∥≥γ(i=1,2,⋯,N)⇔⎧⎩⎨max(w,b)γ−∥w∥s.t.yi(wTxi+b)≥γ−(i=1,2,⋯,N) $\large \left\{ \begin{array}{l} \mathop {\max }\limits_{(w,b)} \gamma \\ s.t.\;\;\;\frac{{{y_i}({w^T}{x_i} + b)}}{{\left\| w \right\|}} \ge \gamma \;\;(i = 1,2, \cdots ,N) \end{array} \right. \Leftrightarrow \left\{ \begin{array}{l} \mathop {\max }\limits_{(w,b)} \frac{{\mathop \gamma \limits^- }}{{\left\| w \right\|}}\\ s.t.\;\;\;{y_i}({w^T}{x_i} + b) \ge \mathop \gamma \limits^- \;\;\;(i = 1,2, \cdots ,N) \end{array} \right.$

由于函数间隔 $\mathop \gamma \limits^-$ 的大小并不影响最优化问题的解。所以取 $\mathop \gamma \limits^- = 1$ 代入上面的最优化问题得到：

{max(w,b)1∥w∥s.t.yi(wTxi+b)−1≥0(i=1,2,⋯,N)⇔{min(w,b)12∥w∥2s.t.yi(wTxi+b)−1≥0(i=1,2,⋯,N) $\large \left\{ \begin{array}{l} \mathop {\max }\limits_{(w,b)} \frac{1}{{\left\| w \right\|}}\\ s.t.\;\;\;{y_i}({w^T}{x_i} + b) - 1 \ge 0\;\;(i = 1,2, \cdots ,N) \end{array} \right. \Leftrightarrow \left\{ \begin{array}{l} \mathop {\min }\limits_{(w,b)} \frac{1}{2}{\left\| w \right\|^2}\\ s.t.\;\;\;{y_i}({w^T}{x_i} + b) - 1 \ge 0\;\;(i = 1,2, \cdots ,N) \end{array} \right.$

这是一个凸二次优化问题——目标函数是二次的，约束条件是线性的。
4、原始问题和对偶问题
1）原始问题
输入：线性可分训练数据集 $T = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}$ ，其中， ${x_i} \in {\rm X} = {R^n}$ ， ${y_i} \in Y = \{ - 1, + 1\}$ ， $i = 1,2, \cdots ,N$ ；
输出：最大间隔分离超平面和分类决策函数
a.构造并求解原始问题：

{min(w,b)12∥w∥2s.t.yi(wTxi+b)−1≥0(i=1,2,⋯,N) $\large \left\{ \begin{array}{l} \mathop {\min }\limits_{(w,b)} \frac{1}{2}{\left\| w \right\|^2}\\ s.t.\;\;{y_i}({w^T}{x_i} + b) - 1 \ge 0\;\;\;(i = 1,2, \cdots ,N) \end{array} \right.$

求得最优解 ${w^*}$ ， ${b^*}$ 。
b.求得分离超平面：

w∗⋅x+b∗=0 $\large {w^*} \cdot x + {b^*} = 0$

以及分类决策函数：

f(x)=sign(w∗⋅x+b∗) $\large f(x) = sign({w^*} \cdot x + {b^*})$

2）对偶问题
应用拉格朗日的对偶性，通过求解对偶问题得到原始问题的最优解。
输入：线性可分训练数据集 $T = \{ ({x_1},{y_1}),({x_2},{y_2}), \cdots ,({x_N},{y_N})\}$ ，其中， ${x_i} \in X = {R^n}$ ， ${y_i} \in Y = \{ - 1, + 1\}$ ， $i = 1,2, \cdots ,N$ ；
输出：最大间隔分离超平面和分类决策函数
a.构造并求解对偶问题：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪minα12∑i=1N∑j=1Nαiαjyiyj(xiT⋅xj)−∑i=1Nαis.t.∑i=1Nαiyi=0s.t.αi≥0(i=1,2,⋯,N) $\large \left\{ \begin{array}{l} \mathop {\min }\limits_\alpha \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}({x_i}^T \cdot {x_j})} } - \sum\limits_{i = 1}^N {{\alpha _i}} \\ s.t.\;\;\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0\\ s.t.\;\;{\alpha _i} \ge 0\;\;\;\;(i = 1,2, \cdots ,N) \end{array} \right.$

求得对偶问题的最优解 ${\alpha ^*} = {({\alpha _1}^*,{\alpha _2}^*, \cdots ,{\alpha _N}^*)^T}$ 。其中， $({x_i}^T \cdot {x_j})$ 表示两个向量的内积。
b.由对偶问题的最优解计算原始问题的最优解：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪w∗=∑i=1Nαi∗yixib∗=yj−∑i=1Nαi∗yi(xiT⋅xj)(αj∗>0) $\large \left\{ \begin{array}{l} {w^*} = \sum\limits_{i = 1}^N {{\alpha _i}^*{y_i}{x_i}} \\ {b^*} = {y_j} - \sum\limits_{i = 1}^N {{\alpha _i}^*{y_i}({x_i}^T \cdot {x_j})\;\;\;({\alpha _j}^* > 0)} \end{array} \right.$

c.求得分离超平面：

w∗⋅x+b∗=0 $\large {w^*} \cdot x + {b^*} = 0$

以及分类决策函数：

f(x)=sign(w∗⋅x+b∗) $\large f(x) = sign({w^*} \cdot x + {b^*})$

Q3：如何由原始问题推导成对偶问题？
A3：推导过程如下：
Step1：引入拉格朗日乘子[\alpha ]到目标函数中：

L(w,b,α)=12∥w∥2−∑i=1Nαi(yi(wTxi+b)−1) $\large L(w,b,\alpha ) = \frac{1}{2}{\left\| w \right\|^2} - \sum\limits_{i = 1}^N {{\alpha _i}({y_i}({w^T}{x_i} + b) - 1)}$

并令：

θ(w)=max(αi≥0)L(w,b,α) $\large \theta (w) = \mathop {\max }\limits_{{(\alpha _i} \ge 0)} L(w,b,\alpha )$

要想最大化 $L(w,b,\alpha )$ ， ${y_i}({w^T}{x_i} + b) - 1$ 的正负很关键，若 ${y_i}({w^T}{x_i} + b) - 1 < 0$ ，则令 ${\alpha _i} = \infty$ 时， $\theta (w) = \infty$ ，没有意义。因此每个点都应满足 ${y_i}({w^T}{x_i} + b) - 1 \ge 0$ ，其中支持向量满足 ${y_i}({w^T}{x_i} + b) - 1 = 0$ ， ${\alpha _i} > 0$ ；非支持向量满足 ${y_i}({w^T}{x_i} + b) - 1 > 0$ ， ${\alpha _i} = 0$ 。也验证了分离超平面仅由支持向量决定的概念。
Step2：当所有点都满足条件时，有：

θ(w)=max(αi≥0)L(w,b,α)=12∥w∥2 $\large \theta (w) = \mathop {\max }\limits_{{(\alpha _i} \ge 0)} L(w,b,\alpha ) = \frac{1}{2}{\left\| w \right\|^2}$

所以，优化问题变为：

min(w,b)12∥w∥2⇔min(w,b)θ(w)⇔min(w,b)max(αi≥0)L(w,b,α) $\large \mathop {\min }\limits_{(w,b)} \frac{1}{2}{\left\| w \right\|^2} \Leftrightarrow \mathop {\min }\limits_{(w,b)} \theta (w) \Leftrightarrow \mathop {\min }\limits_{(w,b)} \mathop {\max }\limits_{{(\alpha _i} \ge 0)} L(w,b,\alpha )$

Step3：求最小的最大值问题转换成求最大的最小值问题：

min(w,b)max(αi≥0)L(w,b,α)=p∗⇒max(αi≥0)min(w,b)L(w,b,α)=d∗(p∗≥d∗) $\large \mathop {\min }\limits_{(w,b)} \mathop {\max }\limits_{{(\alpha _i} \ge 0)} L(w,b,\alpha ) = {p^*} \Rightarrow \mathop {\max }\limits_{{(\alpha _i} \ge 0)} \mathop {\min }\limits_{(w,b)} L(w,b,\alpha ) = {d^*}\;\;({p^*} \ge {d^*})$

而通常，在满足KKT条件时，有 ${p^*} = {d^*}$ 。这里的问题是满足KKT条件的，因此直接对 $\mathop {\max }\limits_{{(\alpha _i} \ge 0)} \mathop {\min }\limits_{(w,b)} L(w,b,\alpha )$ 求解。
Step4：先固定 $\alpha$ ，求 $L(w,b,\alpha )$ 关于 $(w,b)$ 最小化，即分别令 $\frac{{\partial L}}{{\partial w}}$ 和 $\frac{{\partial L}}{{\partial b}}$ 等于0：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪∂L∂w=w−∑i=1Nαiyixi=0⇒w=∑i=1Nαiyixi∂L∂b=−∑i=1Nαiyi=0⇒∑i=1Nαiyi=0 $\large \left\{ \begin{array}{l} \frac{{\partial L}}{{\partial w}} = w - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}} = 0 \Rightarrow w = \sum\limits_{i = 1}^N {{\alpha _i}{y_i}{x_i}} \\ \frac{{\partial L}}{{\partial b}} = - \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0 \Rightarrow \sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0 \end{array} \right.$

将上式代入 $L(w,b,\alpha )$ 中得：

L(w,b,α)=∑i=1Nαi−12∑i=1N∑j=1Nαiαjyiyj(xiT⋅xj) $\large L(w,b,\alpha ) = \sum\limits_{i = 1}^N {{\alpha _i}} - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}({x_i}^T \cdot {x_j})} }$

于是，优化问题变为：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪maxα∑i=1Nαi−12∑i=1N∑j=1Nαiαjyiyj(xiT⋅xj)s.t.∑i=1Nαiyi=0s.t.αi≥0(i=1,2,⋯,N)⇒⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪minα12∑i=1N∑j=1Nαiαjyiyj(xiT⋅xj)−∑i=1Nαis.t.∑i=1Nαiyi=0s.t.αi≥0(i=1,2,⋯,N) $\large \left\{ \begin{array}{l} \mathop {\max }\limits_\alpha \sum\limits_{i = 1}^N {{\alpha _i}} - \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}({x_i}^T \cdot {x_j})} } \\ s.t.\;\;\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0\\ s.t.\;\;{\alpha _i} \ge 0\;\;\;\;(i = 1,2, \cdots ,N) \end{array} \right. \Rightarrow \left\{ \begin{array}{l} \mathop {\min }\limits_\alpha \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _i}{\alpha _j}{y_i}{y_j}({x_i}^T \cdot {x_j})} } - \sum\limits_{i = 1}^N {{\alpha _i}} \\ s.t.\;\;\sum\limits_{i = 1}^N {{\alpha _i}{y_i}} = 0\\ s.t.\;\;{\alpha _i} \ge 0\;\;\;\;(i = 1,2, \cdots ,N) \end{array} \right.$

求出最优解 ${\alpha ^*} = {({\alpha _1}^*,{\alpha _2}^*, \cdots ,{\alpha _N}^*)^T}$ 后，进一步得到：

分离超平面为： $\large \sum\limits_{i = 1}^N {{\alpha _i}^*{y_i}({x_i}^T \cdot {x_j})} + {b^*} = 0$
分类决策函数为： $\large f(x) = sign(\sum\limits_{i = 1}^N {{\alpha _i}^*{y_i}({x_i}^T \cdot {x_j}) + {b^*}} )$
对于新点 $({x_j},{y_j})$ 的预测，只需要计算它与训练数据点的内积即可。事实上，所有非支持向量所对应的系数 ${\alpha _i}^*$ 都是等于零的，因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据。

参考博客：

[支持向量机简介](http://blog.pluskid.org/?p=632)
[介绍支持向量机目标函数的 dual 优化推导，并得出“支持向量”的概念](http://blog.pluskid.org/?p=682)
[Kernel —— 介绍核方法，并由此将支持向量机推广到非线性的情况](http://blog.pluskid.org/?p=685)
[Outliers —— 介绍支持向量机使用松弛变量处理 outliers 方法](http://blog.pluskid.org/?p=692)
[Numerical Optimization —— 简要介绍求解求解 SVM 的数值优化算法](http://blog.pluskid.org/?p=696)