机器学习-分类-支持向量机_支持向量机用于分类的公式-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40476348/article/details/100135147

SVM概述

基于最大间隔来对数据进行分类
优点: 泛化错误率低，计算开销不大，结果易解释。
缺点: 对参数调节和核函数的选择敏感

下图中蓝色直线为分隔超平面，用 $W^Tx+b=0$ 来表示，其中 $W^T$ 和 $b$ 要求解的，在支持向量机的求解中，需要找到离分隔面最近的那些点，这些点叫做支持向量，然后确保它们离分隔面的距离尽量的远，支持向量到分隔面的距离称为margin= $\frac{W^Tx+b}{||W||}$ ，其中 $∣ ∣ W ∣ ∣$ 是向量 $W$ 的 $L 2$ 范数，即： $\sqrt{\sum_{i=1}^{m}W_i^2}$

预测函数为： $f(x)=W^Tx+b$

对于输出 $y$ ，定义 $y=\left\{ \begin{aligned} 1, f(x)>0 \\ -1, f(x)<0\\ \end{aligned} \right.=sgn(f(x))$

那么可以得到： $y_i(W^Tx_i+b)\geqslant 1$ ，这个是约束条件函数

总结：求解SVM算法，目标就是找出模型参数 $W$ 和 $b$ ，为此，必须找到具有最小margin的数据点，也就是支持向量。一旦找到具有最小间隔的数据点，我们就需要对该margin最大化，那么优化目标函数可以写作:
$\max_{w,b}\left \{ \min_{m}(y\cdot (W^Tx+b))\cdot \frac{1}{||W||}\right\}$

为了方便对上面公式的求解，令所有支持向量的 $y\cdot (W^Tx+b))$ 都为1，那么求解margin的最大值就是求解 $∣ ∣ W ∣ ∣$ 的最小值了，即：
$min_{w,b}||W||$

为了方便计算，我们将上面的式子积分一下，然后写成向量的形式：

$\min_{w,b}||W||=>\min_{w,b} \frac{||W||^2}{2}=\min_{w,b} \frac{1}{2}W^TW$

在上述优化问题中，给定了一个跟 $W$ 和 $b$ 相关的约束条件，然后求最优值，因此该问题是一个带约束条件的优化问题，即：
$\left \{ \begin{aligned} & \min_{w,b}\frac{1}{2}W^TW \\ &s.t. \ y_i(W^Tx_i+b)\geqslant 1\\ \end{aligned} \right.$

对于此类问题，我们用拉格朗日乘子法来对其进行求解，将约束条件函数与优化目标函数联立，从而求出使原函数取得极值时，各个变量的解。使用拉格朗日乘子法时，需满足：乘子 $\lambda \geqslant 0$ ，原约束条件函数小于0，所以我们将约束条件函数写成 $1-y_i(W^Tx_i+b)\leqslant 0$ ，那么上述原优化目标函数就可以写成：

$L(W,b,\lambda) = \frac{1}{2}W^TW +\sum_{i=1}^{m}\lambda_i(1-y_i(W^Tx_i+b))$

那么，对于原优化问题，就转化为如下优化问题了：

$\left \{ \begin{aligned} & \min_{w,b} \max_{\lambda}\ L(W,b,\lambda) \\ &s.t.\ \lambda \geqslant 0 \end{aligned} \right.$

这样我们就将原函数中关于 $W$ 和 $b$ 的约束条件转化为关于 $\lambda$ 的约束条件了，二者在解释上是等价的，该优化问题的对偶问题为：

$\left \{ \begin{aligned} & \max_{\lambda} \min_{w,b}\ L(W,b,\lambda) \\ &s.t.\ \lambda \geqslant 0 \end{aligned} \right.$

对偶问题存在弱对偶关系：

$\min_{w,b} \max_{\lambda}\ L(W,b,\lambda) \geqslant \max_{\lambda} \min_{w,b}\ L(W,b,\lambda)$

但是在这里， $\min_{w,b}\frac{1}{2}W^TW$ 是二次的，同时 $y_i(W^Tx_i+b)\geqslant 1$ 满足线性关系，那么这个优化问题就是一个凸优化问题了，那么这两个对偶问题满足强对偶关系，即：
$\min_{w,b} \max_{\lambda}\ L(W,b,\lambda) = \max_{\lambda} \min_{w,b}\ L(W,b,\lambda)$

原问题 $L(W,b,\lambda)$ 和它的对偶问题之间具有强对偶关系，它的充要条件为满足KKT条件，即：

$\left \{ \begin{aligned} &\frac{\partial L}{\partial W}=0,\ \frac{\partial L}{\partial b}=0,\ \frac{\partial L}{\partial \lambda}=0（梯度为0）\\ &\lambda_i(1-y_i(W^Tx_i+b))=0（互补松弛条件）\\ &\lambda_i\geqslant0, \ 1-y_i(W^Tx_i+b)\leqslant0（可行条件）\\ \end{aligned} \right.$

因此，对于最开始的优化问题，我们求解 $\max_{\lambda} \min_{w,b}\ L(W,b,\lambda)$ 就可以了

先求 $L(W,b,\lambda)$ 对 $b$ 的偏导数：

$\begin{aligned} \frac{\partial L(W,b,\lambda)}{\partial b} &= \frac{\partial}{\partial b} \left [\frac{1}{2}W^TW +\sum_{i=1}^{m}\lambda_i(1-y_i(W^Tx_i+b)) \right ] \\ &= \frac{\partial}{\partial b} \left [\sum_{i=1}^{m}\lambda_i(1-y_i(W^Tx_i+b)) \right ] \\ &= \frac{\partial}{\partial b} \left [\sum_{i=1}^{m}\lambda_i(1-y_iW^Tx_i-y_ib) \right ] \\ &= \frac{\partial}{\partial b} \sum_{i=1}^{m}-\lambda_iy_ib \\ &=-\sum_{i=1}^{m}\lambda_iy_i \end{aligned}$

再求 $L(W,b,\lambda)$ 对 $W$ 的偏导数：

$\begin{aligned} \frac{\partial l(W,b,\lambda)}{\partial W} &=\frac{1}{2}W^TW +\sum_{i=1}^{m}\lambda_i-\sum_{i=1}^{m}\lambda_iy_iW^Tx_i \\ &=\frac{1}{2}\cdot 2 \cdot W-\sum_{i=1}^{m}\lambda_iy_ix_i\\ &=W-\sum_{i=1}^{m}\lambda_iy_ix_i \end{aligned}$

由于这是一个凸优化问题，那么根据其的性质：凸优化的任一局部最优解都是它的整体最优解，我们做如下处理：

令 $\frac{\partial L(W,b,\lambda)}{\partial b}=0$ ，则 $\sum_{i=1}^{m}\lambda_iy_i=0$

令 $\frac{\partial L(W,b,\lambda)}{\partial W}=0$ ，则 $W=\sum_{i=1}^{m}\lambda_iy_ix_i$

将上面两个等式代入 $L(W,b,\lambda)$ 函数：

$\begin{aligned} L(W,b,\lambda) &= \frac{1}{2}W^TW +\sum_{i=1}^{m}\lambda_i(1-y_i(W^Tx_i+b)) \\ &=\frac{1}{2}W^TW-W^T\sum_{i=1}^{m}\lambda_iy_ix_i-b\sum_{i=1}^{m}\lambda_iy_i+\sum_{i=1}^{m}\lambda_i \\ &=\frac{1}{2}W^T\sum_{i=1}^{m}\lambda_iy_ix_i-W^T\sum_{i=1}^{m}\lambda_iy_ix_i-b\times0+\sum_{i=1}^{m}\lambda_i \\ &=\sum_{i=1}^{m}\lambda_i-\frac{1}{2}\left(\sum_{i=1}^{m}\lambda_iy_ix_i\right)^T\sum_{i=1}^{m}\lambda_iy_ix_i\\ &=\sum_{i=1}^{m}\lambda_i-\frac{1}{2}\sum_{i,j=1}^{m}\lambda_i\lambda_jy_iy_jx_i^Tx_j \end{aligned}$

因为上面的两个等式是在 $W 、 b$ 偏导数为 0 时取得的，为局部最优解，那么根据凸优化问题的性质，代入后得到结果就一定是整体最优解，即 $\min_{w,b}\ L(W,b,\lambda)$ ，那么，最终优化问题可以地写成:

$\left \{ \begin{aligned} &\max_{\lambda}\left[\sum_{i=1}^{m}\lambda_i-\frac{1}{2}\sum_{i,j=1}^{m}\lambda_i\lambda_jy_iy_jx_i^Tx_j\right]\\ &s.t. \ \lambda \geqslant0\\ &\quad \sum_{i=1}^{m}\lambda_iy_i=0 \end{aligned} \right.$

将 $W=\sum_{i=1}^{m}\lambda_iy_ix_i$ 代入 预测函数 $f(x)=W^TX+b$ ：

$\begin{aligned} f(x) &=W^Tx+b \\ & =\left(\sum_{i=1}^{m}\lambda_iy_ix_i\right)^Tx+b\\ &=\sum_{i=1}^{m}\lambda_iy_i<x_i^T,x>+b\\ &=\sum_{i=1}^{m}\lambda_iy_i<x_i,x^T>+b\\ &=\sum_{i=1}^{m}\lambda_iy_iK(x_i,x_j)+b \end{aligned}$

其中 $x_i$ 为第 $i$ 个样本向量， $x$ 为待预测的输入样本向量， $lt;x_i,x^T>$ 为两个向量的内积(行向量 $\times$ 列向量)，它的物理含义是衡量两个向量的相似性，这里我们把 $K(x_i,x_j)=<x_i,x_j>$ 称为核函数

当数据集为线性不可分时，我们可以使用一个非线性特征映射函数 $\Phi(x)$ ，将全部原始数据特征从低维空间映射到高维空间，然后在高维空间找出分隔超平面，我们称 $\Phi(x)$ 为相似性函数

常见的核函数有以下几种：

1.线性核函数：最简单的核函数，直接计算两个向量的内积，优点是简单、运行效率高，不涉及复杂的变换，总能生成一个线性分隔超平面，结果易于解释，缺点是对线性不可分数据集无法进行有效的分类
$K(x_i,x_j)=x_i^Tx_j$

2.多项式核函数：通过多项式来作为特征映射函数 $\Phi(x)$ ，优点是可以拟合出复杂的分隔超平面，缺点是参数太多，有 $\gamma、c、n$ 这3个参数要选择，实际操作中选择一组合适的参数会比较困难，同时阶数不宜太高，不然，当 $x_i^Tx_j<1$ 时，经过 $n$ 次运算会接近于0，当 $x_i^Tx_j >1$ 时，又会变得非常大，这样就造成核函数不太稳定

$K(x_i,x_j)=(\gamma x_i^Tx_j+c)^n$

3.高斯核函数：可将输入特征映射到无限多维，所以它的优点是，比 线性核函数 强大的多，同时它比 多项式核函数 更容易计算，因为它计算出来的值永远在 [0, 1] 之间，还有就是它只有一个参数 $\sigma$ ，易于参数调优，缺点是映射到无限多维不易于解释。对于 $\sigma$ ，如果选得过大，高次特征上的权重会衰减的特别快，核函数会变为一个低维的子空间，反之，如果 $\sigma$ 选得很小，则可将任意数据映射为线性可分，造成严重的过拟合问题

$K(x_i,x_j)=\exp\left(-\frac{(x_i-x_j)^2}{2\sigma^2}\right)$

然而数据集中，往往存在一些数据点偏离正确的分隔面很远，对于处理这种情况，我们引入一个松弛系数(slack variable)来允许这些错误的数据点可以处于分隔面的错误一侧，也就是允许分类面的间隔会小于1

我们定义一个 $l o s s$ 函数，用 $l o s s$ 函数表示超出超平面的距离：
如果 $y_i(W^Tx_i+b)\geqslant1$ ，那么 $l o s s = 0$
如果 $y_i(W^Tx_i+b)<1$ ，那么 $loss=1-y_i(W^Tx_i+b)$
这个 $l o s s$ 被称为 $hinge\ loss$ ，这个 $l o s s$ 函数可以写成：

$loss(x)=\max \left \{0, 1-y_i(W^Tx_i+b) \right \}$

那么优化目标函数就可以写成：

$\min_{w,b}\left(\frac{1}{2}W^TW +C\sum_{i=1}^{m} \max \{0, 1-y_i(W^Tx_i+b)\} \right)\\$

$C$ 表示惩罚因子，不过一般不写成上面 $\max$ 的形式，这里引入一个变量 $\xi$ ，令 $\xi=1-y_i(W^Tx_i+b)$ ， $\xi \geqslant0$

那么优化目标函数就可以简化成：

$\min_{w,b}\left(\frac{1}{2}W^TW +C\sum_{i=1}^{m} \xi_i\right)$

这个 $\sum_{i=1}^{m} \xi_i$ 被称为软间隔，此时优化问题为：

$\left \{ \begin{aligned} &\max\left [ \min_{w,b}\left(\frac{1}{2}W^TW +C\sum_{i=1}^{m} \xi_i\right)\right]\\ &s.t.\ y_i(W^Tx_i+b)\geqslant 1-\xi \\ &\qquad \xi_i\geqslant0 \end{aligned} \right.$

经过拉格朗日乘子和对偶变换后，最终优化问题就变成了：

$\left \{ \begin{aligned} &\max_{\lambda}\left[\sum_{i=1}^{m}\lambda_i-\frac{1}{2}\sum_{i,j=1}^{m}\lambda_i\lambda_jy_iy_jx_i^Tx_j\right]\\ &s.t. \ C\geqslant \lambda \geqslant0\\ &\quad \sum_{i=1}^{m}\lambda_iy_i=0 \end{aligned} \right.$

可以看到和之前没有引入软间隔的优化目标函数是一样的，只是约束条件函数中由原来的 $\lambda \geqslant0$ 变成了 $C\geqslant \lambda \geqslant0$

如果 $\lambda_i=0$ ，那么表示为正确分类，样本点在分类边界内部， $y_i(W^Tx_i+b)>1$
如果 $C>\lambda_i>0$ ，那么表示为支持向量，样本点在分类边界上， $y_i(W^Tx_i+b)=1$
如果 $\lambda_i=C$ ，那么表示为离群点，样本点在两条边界之间， $y_i(W^Tx_i+b)<1$

下面用SMO来求解 $\lambda$ ，现将上面的优化问题改一下，换成求最小值，然后用核函数 $K(x_i,x_j)$ 表示 $x_i^Tx_j$ 即：

$\left \{ \begin{aligned} &\min_{\lambda}\left[\frac{1}{2}\sum_{i,j=1}^{m}\lambda_i\lambda_jy_iy_jK(x_i,x_j)-\sum_{i=1}^{m}\lambda_i\right]\\ &s.t. \ C\geqslant \lambda \geqslant0\\ &\quad \sum_{i=1}^{m}\lambda_iy_i=0 \end{aligned} \right.$

上面的式子比较复杂，里面有 $m$ 个变量组成的向量 $\lambda$ 需要在目标函数极小化的时候求出，直接求比较难。SMO算法则采用了一种启发式的方法，它每次只优化两个变量，将其他的变量都视为常数，比如，如果选择了 $\lambda_1、\lambda_2$ 作为变量，那么 $\lambda_3、\lambda_4 ... \lambda_m$ 就视作常数，这样SMO算法就将一个复杂的优化算法转化为一个比较简单的二变量优化问题了，为了直观理解，将 $\frac{1}{2}\sum_{i,j=1}^{m}\lambda_i\lambda_jy_iy_jK(x_i,x_j)$ 的展开式用表格表示，用 $K_{11}$ 表示 $K(x_1,x_1)$

$\frac{1}{2}\lambda_1\lambda_1y_1y_1K_{11}$	$\frac{1}{2}\lambda_2\lambda_1y_2y_1K_{21}$	$\frac{1}{2}\lambda_3\lambda_1y_3y_1K_{31}$	…	$\frac{1}{2}\lambda_m\lambda_1y_my_1K_{m1}$
$\frac{1}{2}\lambda_1\lambda_2y_1y_2K_{12}$	$\frac{1}{2}\lambda_2\lambda_2y_2y_2K_{22}$	$\frac{1}{2}\lambda_3\lambda_2y_3y_2K_{32}$	…	$\frac{1}{2}\lambda_m\lambda_2y_my_2K_{m2}$
$\frac{1}{2}\lambda_1\lambda_3y_1y_3K_{13}$	$\frac{1}{2}\lambda_2\lambda_3y_2y_3K_{23}$	$\frac{1}{2}\lambda_3\lambda_3y_3y_3K_{33}$	…	$\frac{1}{2}\lambda_m\lambda_3y_my_3K_{m3}$
…	…	…	…	…
$\frac{1}{2}\lambda_1\lambda_my_1y_mK_{1m}$	$\frac{1}{2}\lambda_2\lambda_my_2y_mK_{2m}$	$\frac{1}{2}\lambda_3\lambda_my_3y_mK_{3m}$	…	$\frac{1}{2}\lambda_m\lambda_my_my_mK_{mm}$

我们只要跟跟 $\lambda_1、\lambda_2$ 相关的，其他的 $\lambda_3、\lambda_4 ... \lambda_n$ 统统不需要，简单的讲，我们只需要前两行和前两列，那么：

$\frac{1}{2}\lambda_1\lambda_1y_1y_1K_{11}=\frac{1}{2}\lambda_1^2y_1^2K_{11}=\frac{1}{2}\lambda_1^2K_{11}$

$\frac{1}{2}\lambda_2\lambda_2y_2y_2K_{22}=\frac{1}{2}\lambda_2^2y_2^2K_{11}=\frac{1}{2}\lambda_2^2K_{22}$

$\frac{1}{2}\lambda_1\lambda_2y_1y_2K_{12}+\frac{1}{2}\lambda_2\lambda_1y_2y_1K_{21}=\lambda_1\lambda_2y_1y_2K_{12}$

$\frac{1}{2}\lambda_1\lambda_3y_1y_3K_{13}+\frac{1}{2}\lambda_3\lambda_1y_3y_1K_{31}+...+\frac{1}{2}\lambda_1\lambda_my_1y_mK_{1m}+\frac{1}{2}\lambda_m\lambda_1y_my_1K_{m1}=\lambda_1y_1\sum_{i=3}^{m}\lambda_iy_iK_{1i}$

$\frac{1}{2}\lambda_2\lambda_3y_2y_3K_{23}+\frac{1}{2}\lambda_3\lambda_2y_3y_2K_{32}+...+\frac{1}{2}\lambda_2\lambda_my_2y_mK_{2m}+\frac{1}{2}\lambda_m\lambda_2y_my_2K_{m2}=\lambda_2y_2\sum_{i=3}^{m}\lambda_iy_iK_{2i}$

相对而言， $-\sum_{i=1}^{m}\lambda_i$ 就比较简单了：

$-\sum_{i=1}^{m}\lambda_i=-\lambda_1-\lambda_2-\lambda_3-...-\lambda_m=-(\lambda_1+\lambda_2)$

那么只用 $\lambda_1、\lambda_2$ 来表示上面的优化目标函数就是：

$\min_{w,b}\left [ \frac{1}{2}\lambda_1^2K_{11}+\frac{1}{2}\lambda_2^2K_{22}+ \lambda_1\lambda_2y_1y_2K_{12}+\lambda_1y_1\sum_{i=3}^{m}\lambda_iy_iK_{1i}+\lambda_2y_2\sum_{i=3}^{m}\lambda_iy_iK_{2i}-\lambda_1-\lambda_2\right]\\$

令 $v_i=\sum_{j=3}^{m}\lambda_j^{old}y_jK_{ij}，s=y_1y_2$ ，那么优化目标函数再次简写为：

$\min_{w,b}\left [ \frac{1}{2}\lambda_1^2K_{11}+\frac{1}{2}\lambda_2^2K_{22}+ \lambda_1\lambda_2sK_{12}+\lambda_1y_1v_1+\lambda_2y_2v_2-\lambda_1-\lambda_2\right]\\$

因为 $\sum_{i=1}^{m}\lambda_iy_i=0$ ，那么：

$\lambda_1y_1+\lambda_2y_2=\lambda_1^{old}y_1+\lambda_2^{old}y_2=-\sum_{i=3}^{m}\lambda_iy_i$

两边同时乘以 $y_1$ ：

$\lambda_1+s\lambda_2=\lambda_1^{old}+s\lambda_2^{old}=w$

其中， $w=-y_1\sum_{i=3}^{m}\lambda_i^{old}y_i$ ，那么就能用 $\lambda_2$ 来表示 $\lambda_1$ 了：

$\lambda_1=w-s\lambda_2$

将上式子代入优化目标函数，得：

$\min_{w,b}\left [ \frac{1}{2}K_{11}(w-s\lambda_2)^2+\frac{1}{2}K_{22}\lambda_2^2+ sK_{12}(w-s\lambda_2)\lambda_2+y_1(w-s\lambda_2)v_1+\lambda_2y_2v_2-w+s\lambda_2-\lambda_2\right]\\$

对 $\lambda_2$ 求导：

$\begin{aligned} \frac{\partial L(\lambda_2)}{\partial\lambda_2} &=\frac{\partial}{\partial\lambda_2} \left [ \frac{1}{2}K_{11}(w-s\lambda_2)^2+\frac{1}{2}K_{22}\lambda_2^2+ sK_{12}(w-s\lambda_2)\lambda_2+y_1(w-s\lambda_2)v_1+\lambda_2y_2v_2-w+s\lambda_2-\lambda_2\right]\\ &=\frac{\partial}{\partial\lambda_2} \left [ \frac{1}{2}K_{11}(w^2+s^2\lambda_2^2-2ws\lambda_2)+\frac{1}{2}K_{22}\lambda_2^2+wsK_{12}\lambda_2-s^2K_{12}\lambda_2^2+y_1w-sy_1v_1\lambda_2+y_2v_2\lambda_2-w+s\lambda_2-\lambda_2\right]\\ &=K_{11}s^2\lambda_2-k_{11}ws+K_{22}\lambda_2+K_{12}ws-2K_{12}s^2\lambda_2-sy_1v_1+y_2v_2+s-1\\ &=K_{11}\lambda_2-K_{11}ws+K_{22}\lambda_2+K_{12}ws-2K_{12}\lambda_2-y_2v_1+y_2v_2+s-1\\ &=\lambda_2(K_{11}+K_{22}-2K_{12})-ws(K_{11}-K_{12})-y_2(v_1-v_2)-(1-s) \end{aligned}$

令 $\frac{\partial L(\lambda_2)}{\partial\lambda_2}=0$ ，则：

$\lambda_2(K_{11}+K_{22}-2K_{12})=ws(K_{11}-K_{12})+y_2(v_1-v_2)+(1-s)$

因为 $v_i=\sum_{j=3}^{m}\lambda_j^{old}y_jK_{ij}，f(x_i)=\sum_{j=1}^{m}\lambda_jy_jK_{ij}$ ，那么其实 $v_1$ 可以写成： $v_i=f(x_i)-b-\lambda_1^{old}y_1K_{1i}-\lambda_2^{old}y_2K_{2i}$

将 $w=\lambda_1^{old}+s\lambda_2^{old}，v_i=f(x_i)-b-\lambda_1y_1K_{1i}-\lambda_2y_2K_{2i}$ 代入：

$\begin{aligned} \lambda_2(K_{11}+K_{22}-2K_{12}) &=ws(K_{11}-K_{12})+y_2(v_1-v_2)+(1-s)\\ &=s(\lambda_1^{old}+s\lambda_2^{old})(K_{11}-K_{12})+y_2(f(x_1)-b-\lambda_1^{old}y_1K_{11}-\lambda_2^{old}y_2K_{21}-f(x_2)+b+\lambda_1^{old}y_1K_{12}+\lambda_2^{old}y_2K_{22})+1-s\\ &=sK_{11}\lambda_1^{old} +K_{11}\lambda_2^{old}-sK_{12}\lambda_1^{old}-K_{12}\lambda_2^{old}+y_2(f(x_1)-f(x_2))+1-s\\ &\quad-sK_{11}\lambda_1^{old}-K_{21}\lambda_2^{old}+sK_{12}\lambda_1^{old}+K_{22}\lambda_2^{old}\\ &=K_{11}\lambda_2^{old}+K_{22}\lambda_2^{old}-2K_{12}\lambda_2^{old}+y_2(f(x_1)-f(x_2)+y_2-y_1)\\ &=\lambda_2^{old}(K_{11}+K_{22}-2K_{12})+y_2(f(x_1)-y_1-(f(x_2)-y_2)) \end{aligned}$

令 $(K_{11}+K_{22}-2K_{12})=\eta， E_i=f(x_i)-y_i$ ，然后两边同时除以 $K_{11}+K_{22}-2K_{12})$ ，得：

$\lambda_2=\lambda_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$

最终，上面的式子就是对 $\lambda_2$ 的更新公式了 (心累~)

然后由于 $\lambda_1+s\lambda_2=\lambda_1^{old}+s\lambda_2^{old}$ ，我们可以求得：

$\begin{aligned} \lambda_1 &=\lambda_1^{old}+s\lambda_2^{old}-s\lambda_2\\ &=\lambda_1^{old}+y_1y_2(\lambda_2^{old}-\lambda_2) \end{aligned}$

不过由于 $C\geqslant \lambda1\geqslant0、C\geqslant \lambda_2\geqslant0$ ，且 $\lambda_1y_1+\lambda2y_2=\xi$ ，（ $\xi$ 为自定义常数），当 $y_1、y_2$ 异号时，有 $\lambda_1-\lambda_2=\xi$ ，如下图所示， $\lambda_1、\lambda_2$ 的解在直线上，且在矩形内部，我们用 $\lambda_2$ 来表示 $\lambda_1$ ，先优化的是 $\lambda_2$ ，那么我们就看纵轴 $\lambda_2$ ：

当为左上条直线时，最小值为 $-\xi$ ，当为右下角的直线时，最小值为0，由于 $\lambda_2$ 必须严格满足大于等于最小值，因此我们需要大于最小值里最大的那一个，所以我们这时候选择较大的那个 $-\xi$ ，根据 $\lambda_1-\lambda_2=\xi$ 可得： $-\xi=\lambda_2-\lambda_1$

当为左上条直线时，最大值为 $C$ ，当为右下角的直线时，最大值为 $C-\xi$ ，由于 $\lambda_2$ 必须严格满足小于等于最大值，因此我们需要小于最大值里最小的那一个，所以我们这时候选择较小的那个 $C-\xi$ ，根据 $\lambda_1-\lambda_2=\xi$ 可得： $C-\xi=C+\lambda_2-\lambda_1$

当 $y_1、y_2$ 同号时， $\lambda_1+\lambda_2=\xi$ ，整理如下：

$y_1 \neq y_2 \left \{ \begin{aligned} &L=\max\{0, \lambda_2-\lambda_1\}\\ &H=\min\{C, C+\lambda_2-\lambda_1\} \end{aligned} \right.$

$y_1=y_2 \left \{ \begin{aligned} &L=\max\{0, \lambda_2+\lambda_1-C\}\\ &H=\min\{C, \lambda_2+\lambda_1\} \end{aligned} \right.$

每次计算出来的 $\lambda_2$ ，根据对应的 $y_1、y_2$ 同号或异号的情况中对于的 $H$ 和 $L$ ，进行判断，当 $H>\lambda>L$ 时，我们才让 $\lambda_2$ 进行更新，超出 $H$ 则更新为 $H$ ，低于 $L$ 则更新为 $L$

然后再计算 $b$ ，在每次完成两个变量的优化之后，当 $C>\lambda_1^{new}>0$ 时，有 $f(x_1)=y_1$ ，即： $\sum_{i=1}^{m}\lambda_iy_iK_{i1}+b_1=y_1$ ，那么：

$\begin{aligned} b_1^{new} &=y_1-\sum_{i=1}^{m}\lambda_iy_iK_{i1}\\ &=y_1-\sum_{i=3}^{m}\lambda_iy_iK_{i1}-\lambda_1^{new}y_1K_{11}-\lambda_2^{new}y_2K_{21} \end{aligned}$

因为 $E_i=f(x_i)-y_i$ ，那么：

$\begin{aligned} E_1 &=\sum_{i=1}^{m}\lambda_iy_iK_{i1}+b_1-y_1\\ &=\sum_{i=3}^{m}\lambda_iy_iK_{i1}+\lambda_1^{old}y_1K_{11}+\lambda_2^{old}y_2K_{21}+b_1^{old}-y_1 \end{aligned}$

那么可以得到：

$y_1-\sum_{i=3}^{m}\lambda_iy_iK_{i1}=b_1^{old}-E_1+\lambda_1^{old}y_1K_{11}+\lambda_2^{old}y_2K_{21}$

将上式代入 $b_1^{new}$ ，得：

$\begin{aligned} b_1^{new} &=b_1^{old}-E_1+\lambda_1^{old}y_1K_{11}+\lambda_2^{old}y_2K_{21}-\lambda_1^{new}y_1K_{11}-\lambda_2^{new}y_2K_{21}\\ &=b_1^{old}-E_1-y_1K_{11}(\lambda_1^{new}-\lambda_1^{old})-y_2K_{21}(\lambda_2^{new}-\lambda_2^{old}) \end{aligned}$

如果 $C>\lambda_2>0$ ，同理可得：
$\begin{aligned} b_2^{new} &=b_2^{old}-E_2+\lambda_1^{old}y_1K_{12}+\lambda_2^{old}y_2K_{22}-\lambda_1^{new}y_1K_{12}-\lambda_2^{new}y_2K_{22}\\ &=b_2^{old}-E_2-y_1K_{12}(\lambda_1^{new}-\lambda_1^{old})-y_2K_{22}(\lambda_2^{new}-\lambda_2^{old}) \end{aligned}$

最后来根据 $\lambda_1、\lambda_2$ 来确定最终 $b^{new}$ 的值：

$b^{new}= \left \{ \begin{aligned} &b_1^{new},\qquad \quad C>\lambda_1>0\\ &b_2^{new},\qquad \quad C>\lambda_2>0\\ &\frac{b_1^{new}+b_2^{new}}{2},\ otherwise \end{aligned} \right.$

Ok，终于将所有的公式推完了，上代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import numpy as np


def load_dataset(file_name):
    data_mat, label_mat = [], []
    fr = open(file_name)
    for line in fr.readlines():
        line_arr = line.strip().split('\t')
        data_mat.append([float(line_arr[0]), float(line_arr[1])])
        label_mat.append(float(line_arr[2]))
    return data_mat, label_mat


def select_random_j(i, m):
    j = i
    while j == i:
        j = int(np.random.uniform(0, m))
    return j


def clip_alpha(aj, H, L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return aj


def smo_simple(data_mat_in, class_labels, C, toler, max_cycle):  # C:常数   toler:容错率
    data_matrix = np.mat(data_mat_in)
    label_matrix = np.mat(class_labels).transpose()
    b = 0
    m, n = np.shape(data_matrix)  # (100, 2)
    lambdas = np.mat(np.zeros((m, 1)))  # (100, 1)
    cycle = 0
    while cycle < max_cycle:
        lambda_pairs_changed = 0  # 记录 lambda 是否已经进行优化
        for i in range(m):  # 遍历每行数据集
            xi, yi = data_matrix[i, :], label_matrix[i]
            fxi = float(np.multiply(lambdas, label_matrix).T * (data_matrix * xi.T)) + b  # 预测类别: f(x)=∑λⁱyⁱ<xⁱ·xᵀ> + b
            Ei = fxi - float(yi)  # 基于xi的预测结果和真实结果的比对，就可以计算误差Ei
            # 如果误差超出容错率和错误分类允许的边界，lambda值不能等于0或C，等于这两个值的话，它们就已经在"边界"上了，因而不能够再减小或增大，因此也就不值得再对它们进行优化了
            if (yi * Ei < -toler) and (lambdas[i] < C) or (yi * Ei > toler) and (lambdas[i] > 0):
                j = select_random_j(i, m)  # 返回一个随机数
                xj, yj = data_matrix[j, :], label_matrix[j]  # 随机向量xj
                fxj = float(np.multiply(lambdas, label_matrix).T * (data_matrix * xj.T)) + b  # 预测类别: f(x)=∑λⁱyⁱ<xⁱ·xᵀ> + b
                Ej = fxj - float(yj)  # 基于xj的预测结果和真实结果的比对，就可以计算误差Ej
                lambda_i_old = lambdas[i].copy()  # 原 λⁱ
                lambda_j_old = lambdas[j].copy()  # 原 λʲ
                if yi != yj:  # yi与yj异号，即一个为+1，另一个为-1
                    L = max(0, lambdas[j] - lambdas[i])  # 大于最小值中较大的一个
                    H = min(C, C + lambdas[j] - lambdas[i])  # 小于最大值中较小的一个
                else:  # yi与yj同号，都为+1或-1
                    L = max(0, lambdas[j] + lambdas[i] - C)
                    H = min(C, lambdas[j] + lambdas[i])
                if L == H:
                    print("L==H")
                    continue
                eta = 2.0 * xi * xj.T - xi * xi.T - xj * xj.T  # η: 最优修改量
                if eta >= 0:
                    print("eta>=0")
                    continue
                lambdas[j] -= yj * (Ei - Ej) / eta  #
                lambdas[j] = clip_alpha(lambdas[j], H, L)  # 更新: H > lambda_j > L
                if abs(lambdas[j] - lambda_j_old) < 0.00001:  # lambdas[j]变化很小则执行跳过
                    print("j not moving enough")
                    continue
                lambdas[i] += yj * yi * (lambda_j_old - lambdas[j])  # 更新lambda_i
                b1 = b - Ei - yi * (lambdas[i] - lambda_i_old) * xi * xi.T - yj * (lambdas[j] - lambda_j_old) * xi * xj.T  # 更新b1
                b2 = b - Ej - yi * (lambdas[i] - lambda_i_old) * xi * xj.T - yj * (lambdas[j] - lambda_j_old) * xj * xj.T  # 更新b2
                if 0 < lambdas[i] < C:
                    b = b1
                elif 0 < lambdas[j] < C:
                    b = b2
                else:
                    b = (b1 + b2) / 2.0
                lambda_pairs_changed += 1  # lambda修正次数+1
                print("cycle: %d i:%d, pairs changed %d" % (cycle, i, lambda_pairs_changed))
        if lambda_pairs_changed == 0:  # 本轮循环中lambda没有被改变 (lambda已优化)
            cycle += 1
        else:  # 本轮循环中lambda被改变了 (lambda存在继续优化的可能)
            cycle = 0
        print("iteration number: %d" % cycle)
    return b, lambdas


if __name__ == '__main__':
    data_mat, label_mat = load_dataset('testSet.txt')
    b, lambdas = smo_simple(data_mat, label_mat, 0.6, 0.001, 40)
    print(lambdas)
    print(b)