一文看懂序列最小最优化算法---SMO

最新推荐文章于 2024-09-02 09:26:45 发布

原创最新推荐文章于 2024-09-02 09:26:45 发布 · 2.5k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #smo算法 #机器学习 #svm #支持向量机

机器学习专栏收录该内容

9 篇文章

订阅专栏

SMO算法是1998年由John Platt提出的，用于解决支持向量机（SVM）训练中的二次规划问题。它通过一次优化两个拉格朗日乘子来简化求解过程，从而高效地找到SVM的最优解。本文详细介绍了SMO的背景、策略、求解过程以及如何选择变量，帮助读者深入理解SMO在SVM中的作用。

一、SMO的背景介绍

序列最小最优化算法（sequential minimal optimization，SMO）于1998年被John Platt发明，是一种用于解决支持向量机训练期间出现的二次规划问题的算法。在SMO之前也有一些算法用于解决此类问题，但是这些算法都比较复杂，所以高效的SMO提出之时就在SVM社区引起了一阵轰动。

二、从SVM说起—SMO要解决什么

如何优化SVM的参数？首先我们通过拉格朗日乘子法建立拉格朗日函数，再根据拉格朗日的对偶性求解极大极小值问题。这些，我已经在《支持向量机一：线性支持向量机介绍》、《支持向量机二：非线性支持向量机》中介绍，感兴趣的朋友可以看一下。
非线性优化最终要解决一个二次规划问题，即 $min_a \ \ \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jy_iy_jK(x_i,x_j)-\sum_{i=1}^Na_i\ \ ... \ \ (1)\\\ s.t. \ \ \sum_{i=1}^Na_iy_i=0,\ \ \ i=1,2,.,N\ \ ...\ \ (2)\\\ 0\leq a_i\leq C,\ \ \ i=1,2,.,N\ \ ...\ \ (3)$ 我们知道（不知道的请打开上面两个链接）非线性SVM的超平面可以写成 $\sum_{i=1}^Na_iy_iK(x_i,x)+b=0\ \ ...\ \ (4)$ 分类决策函数可以写成 $f(x)=sign(\sum_{i=1}^Na_iy_iK(x_i,x)+b)\ \ ...\ \ (5)$ 此时式(4)(5)中的 $a_i,b$ 都是未知数，需要求解。如何通过数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 求得非线性SVM的分离超平面和分类决策函数？

首先，我们通过SMO算法求解式(1)(2)(3)的最优解 $a^*=(a_1^*,a_2^*,...,a_N^*)^T$ 其次，我们从 $a^*$ 中选择一个分量 $a_j^*$ ( $0<a_j^*< C$ ，即支持向量中的样本点对应的 $a_j$ )，根据支持向量满足的条件得 $b^*=y_j-\sum_{i=1}^Na_i^*y_iK(x_i,x)$ 于是，我们求得分离超平面： $\sum_{i=1}^Na_i^*y_iK(x_i,x)+b^*=0$ 还有分类决策函数： $f(x)=sign(\sum_{i=1}^Na_i^*y_iK(x_i,x)+b^*)$

从以上的过程，你应该明白SMO主要用在求解式(1)(2)(3)中的 $a_i$ 的。

三、SMO的策略

你需要求得不是一个 $a_i$ ，而是一连串的 $a=(a_1,a_2,...,a_N)^T$ 。 $a_i$ 是拉格朗日乘子，从式(5)也能看出，一个 $a_i$ 对应一个样本点 $x_i,y_i)$ ，也就是说数据集 $D$ 的样本容量N越大，需要求解的参数 $a_i$ 就越多。考虑一下你做过的数据集，是不是N在一百以内已经是一个小数据集？
面对如此多的参数，以前的解决算法局限明显，直到SMO出世，并且SMO的出世还带火了SVM（是不是像硬件的提升带火了深度学习）。
面对如此多的参数 $a_i$ ，SMO是如何求解的呢？既然一下子求这么多参数难求，不如一次只求解两个，即 “固定其他变量，一次只求两个变量，直到求出所有变量”。
没懂？我再罗嗦点。对于 $a=(a_1,a_2,...,a_N)^T$ ，求解步骤如下：

设定 $a^{(0)}=0$ ;
按一定规则选取 $a_1，a_2$ ，固定其它的 $a_i \ (i \geq 3)$ ；
优化 $a_1，a_2$ 直至其满足条件，此时求解了参数 $a_1，a_2$ ；
按一定规则选取 $a_3，a_4$ ，固定其他参数 $a_i$ ，此时包含计算好的 $a_1，a_2$ ；
优化 $a_3，a_4$ 直至其满足条件，此时求解了参数 $a_3，a_4$ ；
然后重复以上方法求 $a_5,a_6),(a_7,a_8),....$

如果懂了，就继续阅读下去吧。

四、SMO的求解过程

我们探讨 $a_1$ 、 $a_2$ 的求解过程，此时固定参数 $a_i\ (i=3,4,...,N)$ 。因此，SMO最优化式(1)(2)(3)的子问题可以写成 $min_{a_1,a_2}\ \ \ W(a_1,a_2)=\frac{1}{2}K_{11}a_1^2+\frac{1}{2}K_{22}a_2^2+y_1y_2K_{12}a_1a_2-(a_1+a_2)+y_1a_1\sum_3^Ny_ia_iK_{i1}+y_2a_2\sum_{i=3}^Ny_ia_iK_{i2}\ \ ...\ \ (6)\\\ s.t.\ \ \ a_1y_1+a_2y_2=-\sum_{i=3}^Ny_ia_i=\varsigma\ \ ...\ \ (7)\\\ 0\leq a_i\leq C,\ \ \ i=1,2\ \ \ ...\ \ (8)$ 其中， $K_{ij}=K(x_i,x_j),i,j=1,2,..,N$ ， $\varsigma$ 是常数，并且式(6)中省略了不含 $a_1,a_2$ 的常数项。
在我们固定了 $a_3,a_4,...,a_N$ 之后，剩下两个变量 $a_1,a_2$ ，但是这两个变量中只有一个自由变量，即当求得其中一个变量后，另外一个变量也顺应求出。例如当求出 $a_2$ 后，由式(2)可求得 $a_1=-y_1\sum_{i=2}^Na_iy_i$
我们迭代求 $a$ ，必然牵涉到新的值和旧的值，并且我们还需要判断求得的 $a$ 是否满足式(7)(8)，因此我们设初始可行解位 $a_1^{old},a_2^{old}$ ，新解但未判断是否满足式(7)(8)的解为 $a_1^{new,unc},a_2^{new,unc}$ ，新解并判断满足式(7)(8)的解为 $a_1^{new},a_2^{new}$ 。

对于限制条件式(7)(8)，还是不够直观，我们先把式(7)(8)写成不等式的样子。以 $a_2$ 为例，首先，式(7)(8)给出了 $a_2$ 的限制条件，并且式(7)含有变量 $y_i$ ，但是我么已知 $y_i∈{-1，1}$ ，即 $y_1,y_2$ 存在两种情况： $y_1=y_2$ 、 $y_1\neq y_2$ 。

当 $y_1=y_2$ 时，根据式(7)(8)，有 $max(0,a_2^{old}+a_1^{old}-C)\leq a_2^{new}\leq min(C,a_2^{old}+a_1^{old})$ 当 $\neq y_2$ 时，根据式(7)(8)，有 $max(0,a_2^{old}-a_1^{old})\leq a_2^{new}\leq min(C,C+a_2^{old}-a_1^{old})$ 两种情况下，得到的 $a_2^{new}$ 的形式是一样的，我们统一令左边的项为 $L$ ，令右边的项为 $H$ ，则有 $L\leq a_2^{new}\leq H\ \ \ ...\ \ \ (9)$

4.1 根据 $a^{old}$ 求解 $a^{new,unc}$

首先初始化 $a^{old}=0,b^{old}=0$ 或者初始化为其他合理值。

接下来，我们先求 $a_2$ 。我们标记 $g(x_i)=\sum_{i=1}^Na_iy_iK(x_i,x)+b\ \ ...\ \ (10) \\\ v_i=\sum_{j=3}^Na_jy_jK(x_i,x_j)=g(x_i)-\sum_{j=1}^2a_jy_jK(x_j,x_i)-b,\ \ i=1,2\ \ ...\ \ (11)$ 此时，目标函数可以写成 $W(a_1,a_2)=\frac{1}{2}K_{11}a_1^2+\frac{1}{2}K_{22}a_2^2+y_1y_2K_{12}a_1a_2-(a_1+a_2)+y_1v_1a_1+y_2v_2a_2\ \ ...\ \ （12）$ 由 $a_1y_1=\varsigma-a_2y_2$ 及 $y_i^2=1$ ，可将 $a_1$ 表示为 $a_1=(\varsigma-y_2a_2)y_1$ 代入式(12)得到只有 $a_2$ 的 $W(a_2)=\frac{1}{2}K_{11}(\varsigma-a_2y_2)^2+\frac{1}{2}K_{22}a_2^2+y_2K_{12}(\varsigma-a_2y_2)a_2-(\varsigma-a_2y_2)y_1-a_2+v_1(\varsigma-a_2y_2)+y_2v_2a_2$ 对 $a_2$ 求导数 $\frac{\partial W}{\partial a_2}=K_{11}a_2+K_{22}a_2-2K_{12}a_2-K_{11}\varsigma y_2+K_{12}\varsigma y_2+y_1y_2-1-v_1y_2+y_2v_2$ 令其为0，得到 $(K_{11}+K_{22}-2K_{12})a_2=y_2(y_2-y_1+\varsigma K_{11}-\varsigma K_{12}+v_1-v_2)\\\ =y_2[y_2-y_1+\varsigma K_{11}-\varsigma K_{12}+(g(x_1)-\sum_{j=1}^2y_ja_jK_{1j}-b)-(g(x_2)-\sum_{j=1}^2y_ja_jK_{2j}-b)]$ 将 $\varsigma=a_1^{old}y_1+a_2^{old}y_2$ 代入，得到 $K_{11}+K_{22}-2K_{12})a_2^{new,unc}=y_2((K_{11}+K_{22}-2K_{12})a_2^{old}y_2+y_2-y_1+g(x_1)-g(x_2))\\\ =(K_{11}+K_{22}-2K_{12})a_2^{old}+y_2[(g(x_1)-y_1)-(g(x_2)-y_2)]\ \ ...\ \ ...\ \ (13)$ 现在令 $E_i=g(x_i)-y_i=(\sum_{j=1}^Na_j^{old}y_jK(x_j,x_i)+b^{old})-y_i，i=1,2\ \ ...\ \ (14)$ 再令 $\eta=K_{11}+K_{22}-2K_{12}$ ，代入上式(13)，于是得到未经裁剪的 $a_2^{new,unc}=a_2^{old}+\frac{y_2(E_1-E_2)}{\eta}\ \ ...\ \ (15)$
从式(14)(15)知， $a_2^{new,unc}$ 与 $a^{old}=(a_1^{old},a_2^{old},...,a_N^{old})^T,b^{old}$ 有关。

4.2 根据限制条件从 $a_2^{new,unc}$ 得到 $a_2^{new}$ ，并计算 $a_1^{new}$

由式(9)，可得经剪辑后的 $a_2$ 的解 $a_2^{new}=\begin{cases}H, & a_2^{new,unc}>H \\\ a_2^{new,unc}, & L\leq a_2^{new,unc}\leq H\\\ L, & a_2^{new,unc}<L \end{cases}$
由 $a_2^{new}$ 求得 $a_1^{new}$ 得 $a_1^{new}=a_1^{old}+y_1y_2(a_2^{old}-a_2^{new})$

4.3 计算 $b^{new}$ 和 $E_i^{new}$

当 $0<a_i^{new}<C,i=1,2$ ，对应的样本点是支持向量，即由支持向量的满足条件 $\sum_{i=1}^Na_i^*y_iK(x_i,x)+b^*-y_i=0$ 得，

$b_1^{new}=y_1-\sum_{i=3}^Na_iy_iK_{i1}-a_1^{new}y_1K_{11}-a_2^{new}y_2K_{21}$ 这里面还包括了 $v_i=\sum_{i=3}^Na_iy_iK_{i1}$ ，我们根据式(14)将 $b_1^{new}$ 换成只与 $a_1,E_1,b_1$ 有关，即 $b_1^{new}=-E_1-y_1K_{11}(a_1^{new}-a_1^{old})-y_2K_{21}(a_2^{new}-a_2^{old})+b^{old}$ 同样有 $b_2^{new}=-E_2-y_1K_{12}(a_1^{new}-a_1^{old})-y_2K_{22}(a_2^{new}-a_2^{old})+b^{old}$
这里给出结论，当 $a_1^{new},a_2^{new}$ 同时满足条件 $0<a_i^{new}<C,i=1,2$ ，则有 $b_1^{new}=b_2^{new}$ 。

当 $a_i^{new}=0或C,i=1,2$ ，此时一般取 $b_{new}=(b_1^{new}+b_2^{new})/2$ 。

$a_i^{new},b^{new}$ 的取值与 $E_i$ 有关，我们在计算了 $a_i^{new},b^{new}$ 后，还需要更新一下 $E_i$ ，得 $E_i^{new}=\sum_{i=1}^{N}y_ja_jK(x_i,x_j)+b^{new}-y_i\ \ ...\ \ (16)$

4.4 如何选取 $a_1,a_2$

在推SVM时，我们希望所有的样本对 $x_i,y_i)$ 到超平面的函数距离都大于最小的函数距离，并且我们设最小的函数距离为1，即我们希望所有的样本对 $x_i,y_i)$ 都使得 $y_i\sum_{j=1}^Na_jy_jK(x_i,x_j)+b\geq 1\ \ ... \ \ (17)$ 这也是原始问题的限制条件。当参数还没优化之前，显然不满足这个条件，因此SMO算法在选择变量时，希望优化哪些不满足式(17)的变量，所以 $a_1,a_2$ 至少有一个不满足式(7)。

外层循环— $a_1$ 的选择：
SMO称选择第1个变量的过程为外层循环。该变量选择的原则是，其对应的样本对 $x_i,y_i)$ 在所有的样本对中最不符合式(7)（对应着不满足拉格朗日乘子法的KKT条件)。
该检测是在 $\varepsilon$ 范围内进行的，即所有点在 $\varepsilon$ 范围内都满足式(7)，则优化完成，这也是终止条件。

内层循环— $a_2$ 的选择:
SMO称选择第2个变量的过程为内层循环。当已经找到了 $a_1$ ，内层循环希望 $a_2$ 的改变要足够大。由式(15)， $a_2$ 改变足够大意味着 $E_1-E_2|$ 变化足够大，由式(16)，当 $a_1$ 确定时， $E_1$ 也确定了，所以我们可以根据式(16)寻找相应使 $E_1-E_2|$ 最大的样本对对应的 $a_i$ 作为 $a_2$ 。若找不到合适的 $a_2$ ，此时应放弃现在的 $a_1$ 并重新寻找 $a_1$ 。