统计学习方法笔记---SMO算法

最新推荐文章于 2022-01-14 23:52:56 发布

原创最新推荐文章于 2022-01-14 23:52:56 发布 · 540 阅读

2 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

14 篇文章

订阅专栏

本文深入解析SMO算法在求解凸二次规划问题中的应用，尤其是针对SVM的支持向量机优化问题。阐述了SMO算法如何通过迭代更新两个参数来寻找最优解，包括其工作原理、变量选择策略、阈值更新及KKT条件检查。

前言

首先我们需要知道的是SMO算法适用于求解凸二次规划问题的最优解，在详细讲解SMO之前，我们需要了解坐标上升法，该算法每一轮迭代得到多元函数中的一个参数，通过多次迭代直到收敛得到所有参数解。如 $\Theta = [\theta_1, \theta_2, \theta_3]$ ，每一轮只计算 $\theta_i$ ，经过三次迭代得到 $\Theta$ 。

SMO的特点

SMO与坐标上升法的思想大致相同，只不过每一轮迭代同时更新两个参数。因为如果优化目标函数的约束条件对参数有限制，若只更新一个参数，可能会导致约束条件失效。
如SVM中有约束条件： $\sum_{i=1}^N \alpha_iy_i=0$

SMO算法的工作原理

每次循环中选择两个alpha进行优化处理，一旦找到一对合适的alpha，那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须要符合一定的条件，条件一直就是这两个alpha必须要在间隔边界之外，而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。
区间化处理：？

SVM中的SMO算法

SVM的对偶问题：
$\quad \sum_{i=1}^n\alpha_i -\frac 1 2 \sum_{i=1}^n\sum_{j=1}^n \alpha_i \alpha_jk_(x_i,x_j)y_iy_j \\ s.t \quad \sum_{i=1}^n \alpha_iy_i = 0 \\ \\ 0 \le \alpha_i \le C$
定义：
$k_{ij} = K(x_i, x_j) \\ f(x_i) = \sum_{j=1}^ny_j\alpha_jk_{ij}+b \\ v_i = f(x_i) - \sum_{j=1}^2y_i\alpha_jk_{ij}-b$
于是SMO的最优化问题的子问题为 $W(\alpha_1, \alpha_2)$ ：
$W(\alpha_1, \alpha_2)= \sum_{i=1}^n \alpha_i - \frac 1 2 \sum_{i=1}^n \sum_{j=1}^n y_i y_j K(x_i,x_j)\alpha_i\alpha_j\\ = \alpha_1 + \alpha_2-( \frac 1 2 k_{11}\alpha_1^2 + \frac 1 2 k_{22}\alpha_2^2 + y_1y_2k_{12}\alpha_1\alpha_2 + \frac 1 2 \sum_{i=1}^j \sum_{j=3}^n y_i y_j K(x_i,x_j)\alpha_i\alpha_j + \frac 1 2 \sum_{i=3}^n \sum_{j=1}^n y_i y_j K(x_i,x_j)\alpha_i\alpha_j)\\ = \alpha_1 + \alpha_2- (\frac 1 2 k_{11}\alpha_1^2 + \frac 1 2 k_{22}\alpha_2^2 + y_1y_2k_{12}\alpha_1\alpha_2 + \sum_{i=1}^ny_i\alpha_iv_i )\\ = \alpha_1 + \alpha_2-(\frac 1 2 k_{11}\alpha_1^2 + \frac 1 2 k_{22}\alpha_2^2 + y_1y_2k_{12}\alpha_1\alpha_2+y_1\alpha_1v1 + y_2\alpha_2v_2)$
这里需要注意到两点

$K_{12} = K_{21}$ ，因为核函数在希尔伯特空间中，希尔伯特空间中的向量具有正交性1的特点，即 $< f, g > = < g, f >$
$\alpha_1，\alpha_2$ 为变量， $\alpha_3 , ..., \alpha_n$ 为常数，在上式我们省略了常数项

由于
$\alpha_iy_1 + \alpha_2y_2 = k \quad y_i \in \{ -1, 1\} \\ \alpha_1 =\gamma - s\alpha_2 \\ (\gamma = y_1k, s = y_1y_2)$
令 $\alpha_2$ 为优化变量，则
$W(\alpha_2) = -( \gamma - s \alpha_2 + \alpha_2 - \frac 1 2 k_{11}(\gamma - s\alpha_2)^2 - \frac 1 2 k_{22} \alpha_2^2) \\ \frac {\partial W(\alpha_2)} {\partial \alpha_2} = -s + 1 + sk_{11} - k_{22}\alpha_2 - sk_{12}(\gamma - 2s\alpha_2) + y_2v_1 - y_2v_1 \\ =-s + 1 + sk_{11}\gamma - k_{22}\alpha_2 - k_{22}\alpha_2 -sk_{12}\gamma + 2sk_{12}\alpha_2 + y_2v_1 -y_2v_2 \\ \quad \\ 令\frac {\partial W(\alpha_2)} {\partial \alpha_2} = 0 \\ \quad \\ \alpha_2 =\frac { -s + 1 + sk_{11}\gamma - sk_{12}\gamma + y_2v_1 - y_2v_2} {k_{11} + k_{22} + 2k_{12}}$
定义误差项 $E_i = f(x_i) - y_i$ , 取 $\gamma = \alpha_1^{old} + s\alpha_2^{old}$ , $K = k_{11} + k_{22} -2k_{12}$
已知:
$v_1 = f(x_1) - y_1\alpha_1k_{11} - y_2\alpha_2k_{12} -b\\ v_2 = f(x_2) - y_1\alpha_1k_{21} - y_2\alpha_2k_{22}-b$
则
$\alpha_2^{new} = \frac {-s + 1 + s\gamma k_{11} - s\gamma k_{12} + y_2f(x_1)-s\alpha_1^{old}k_{11} - \alpha_2^{old}k_{12} - y_2f(x_2) + s\alpha_1^{old}k_{21} + \alpha_2^{old}k_{22}} {k_{11} + k_{22} + 2k_{12}} \\$
将 $\alpha_1 =\gamma - s\alpha_2$ 代入：
$\alpha_2^{new}=\frac {y_2[f(x_1) - y_1) - (f(x_2) - y_2)] + s\gamma k_{11} - s(\gamma - s \alpha_2^{old})k_{11} + s(\gamma - s\alpha_2^{old})k_{21} - s\gamma k_{12} - \alpha_2^{old}k_{12} + \alpha_2^{old} k_{22}} {k_{11} + k_{22} + 2k_{12}}\\ = \frac {y_2[f(x_1) - y_1) - (f(x_2) - y_2)] + \alpha_2^{old}k_{11} + \alpha_2^{old}k_{22}-2k_{12}\alpha_2^{old}} {k_{11} + k_{22} + 2k_{12}} \\ \quad \\ = \alpha_2^{old} + \frac {y_2(E_1 - E_2)} {K}$

对变量进行剪辑

已知 $\le \alpha_i \le C$ (这里的C为SVM的目标优化函数的惩罚参数。所以需要对变量进行剪辑，因为只有两个变量 $\alpha_1 , \alpha_2$ ，所有约束可以用二维空间中的图形表示。
有两种情况：
$y_1y_2 \ne 1 \Rightarrow \alpha_1 - \alpha_2 = k \\ y_1y_2 = 1 \Rightarrow \alpha_1+ \alpha_2 = k$
在这里插入图片描述

$y_1 = y_2 , \alpha_1 - \alpha_2 = k$ ：

k > 0时， $\alpha_2$ 的范围是 (0, C-k)
k < 0时， $\alpha_2$ 的范围是 (-k, C)
=> $\alpha_2^{new}$ 的最小值L，最大值H为：
$\alpha_2^{old} - \alpha_1^{old}) \\ H = min(C, C+\alpha_2^{old} - \alpha_1^{old})$
$y_1 \ne y_2, \alpha_1 + \alpha_2 = k$ ：

k < C时， $\alpha_2$ 的范围是 (0, k)
k > C时， $\alpha_2$ 的范围是 (k-C, C )
=> $\alpha_2^{new}$ 的最小值L，最大值H为：
$\alpha_2^{old} + \alpha_1^{old} -C) \\ H = min(C, \alpha_2^{old} + \alpha_1^{old})$

现在，最优化问题沿着约束方向未经剪辑时的解为：
$\alpha_2^{new, unc} = \alpha_2^{old} + \frac {y_2(E_1 - E_2)} {K}$
经剪辑后 $\alpha_2$ 的解是：
$\alpha_2^{new} = \begin{cases} H, \quad \alpha_2^{new, unc} > H \\ \alpha_2^{new, unc}, L \le \alpha_2^{new, unc} \le H \\ L, \quad \alpha_2^{new, unc} < L \end{cases}$
由 $\alpha_2^{new}$ 求得 $\alpha_1^{new}$ ：
$\alpha_1^{new} = \alpha_1^{old} + y_1y_2\alpha_2^{new}$
最后，我们得到了最优化问题的解 $(\alpha_1^{new},\alpha_2^{new})$

选择变量

SMO算法在每个问题中选择两个变量优化，其中至少一个变量是违法KKT条件的。

选择第一个变量

选择第一个变量的过程为外层循环。找到训练样本中选择违反KKT条件最严重的样本点，并将其对应的变量作为第一个变量。

检验训练样本是否满足KKT条件：
SMO算法在每个问题中选择两个变量优化，其中至少一个变量是违法KKT条件的。

KKT条件的推导过程：
根据软间隔支持向量机的KKT条件：
$\begin{cases} \mu_i\xi_i = 0\\ C- \alpha_i - \mu_i = 0 \\ y_if(x_i) - 1 + \xi_i \ge 0 \\ \alpha_i(y_if(x_i) - 1 + \xi_i ) = 0 \end{cases}$
进行如下推导：
$\begin{cases} \alpha_i = 0 \Leftrightarrow \mu_i = C \Leftrightarrow \xi_i = 0 \Leftrightarrow y_if(x_i) \ge 1 \\ 0 < \alpha_i < C \Leftrightarrow \mu_i>0 \Leftrightarrow \xi_i = 0 \Leftrightarrow y_if(x_i) = 1 \\ \alpha_i = C \Leftrightarrow \mu_i = 0 \Leftrightarrow \xi_i \ge 0 \Leftrightarrow y_if(x_i) \le 1 \end{cases}$
得到检验训练样本的KKT条件:
$\begin{cases} \alpha_i = 0 \Leftrightarrow y_if(x_i) \ge 1 \\ 0 < \alpha_i < C \Leftrightarrow y_if(x_i) = 1 \\ \alpha_i = C \Leftrightarrow y_if(x_i) \le 1 \end{cases}$

选择第二个变量

找到第二个变量的过程为内层循环，第二个变量选择的标准是希望使 $\alpha_2$ 有足够大的变化。而 $E_1 - E_2|$ 依赖于 $E_1 - E_2|$ , 且 $E_1$ 是已知的。所以需要找到使 $E_1 - E_2|$ 最大的变量 $\alpha_2$ 。如果内层循环通过以上方法选择的 $\alpha_2$ 不能是目标函数有足够的下降，那么采用以下启发式继续选择 $\alpha_2$ ，遍历在间隔边界上的支持向量点，依次将其对应的变量作为 $\alpha_2$ 实适用，直到目标函数有足够的下降。若找不到合格的 $\alpha_2$ ，那么遍历训练数据集；若仍找不到合适的 $\alpha_2$ ，则放弃第一个 $\alpha_1$ ，在通过外层循环寻求另外的 $\alpha_1$ 。

更新阈值b 和差值E

当我们更新了一对 $\alpha_i, \alpha_j$ 之后都需要重新计算阈值 b ，因为 b 关系到我们 $f (x)$ 的计算，关系到下次优化的时候误差 $E_i$ 的计算。
为了使得被优化的样本都满足KKT条件，

当 $\alpha_1^{new}$ 不在边界，即 $\alpha_1^{new} < C$ , 根据KKT条件可知相应的数据点为支持向量，满足 $y_1(w^T + b) = 1$ , 两边同时乘上 $y_1$ 得到 $\sum_{i=1}^n \alpha_iy_i k(x1,x_i) = y_i$ , 进而得到 $b_1^{new}$ 的值:
$b_1^{new} = y_1 - \sum_{j=3}^n\alpha_i y_i k_{i1} - \alpha_1^{new}y_1 k_{11} - \alpha_2^{new}y_2 k_{21}$
上式的前两项可以写成：
$y_1 - \sum_{j=3}^n\alpha_i y_i k_{i1} = -E_1 +\alpha_1^{old}y_1k_{11} + \alpha_2^{old}y_2k_{21} + b^{old}$
可得：
$b_1^{new} = -E_1 +\alpha_1^{old}y_1k_{11} + \alpha_2^{old}y_2k_{21} + b^{old} - \alpha_1^{new}y_1 k_{11} - \alpha_2^{new}y_2 k_{21} \\ = -E_1 -y_1k_{11}(\alpha_1^{new}-\alpha_1^{old}) - y_2k_{21}(\alpha_2^{new}-\alpha_2^{old}) + b^{old}$
当 $\alpha_2^{new} < C$ , 可以得到 $b_2^{new}$ 的表达式(推导同上):

$b_2^{new} = -E_2 -y_1k_{12}(\alpha_1^{new}-\alpha_1^{old}) - y_2k_{22}(\alpha_2^{new}-\alpha_2^{old}) + b^{old}$
当 $\alpha_1^{new}, \alpha_2^{new}$ 同时满足 $\alpha_i^{new} < C$ ，即 $b_1$ 和 $b_2$ 都有效的时候，他们是相等的, $b_1^{new} = b_2^{new} = b^{new}$ 。
当两个乘子 $\alpha_1^{new}, \alpha_2^{new}$ 是0或者C，即都在边界上，且 $\ne H$ 时， $b_1^{new},b_2^{new}$ 之间的值就是满足KKT条件的阈值。SMO选择他们的中点作为新的阈值:
$b^{new} = \frac {b_1^{new} + b_2^{new}} 2$
接下来更新 $E_i^{new}$ ：
$E_i^{new} = \sum_S y_j \alpha_j k(x_i, x_j) +b^{new} -y_i$
其中，S是所有支持向量 $x_j$ 的集合。支持向量为支撑超平面上，支撑超平面与分离超平面之间以及误分类侧的向量。