SMO算法原理

最新推荐文章于 2025-03-12 14:46:51 发布

Jeff-Chow000

最新推荐文章于 2025-03-12 14:46:51 发布

阅读量763

点赞数 2

文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/u014611178/article/details/109167647

版权

SMO算法原理

在前面的算法推导过程中，都遇到了以下的优化问题：
$\begin{aligned} \min_{\boldsymbol{\alpha}} \frac{1}{2} &\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \kappa(\mathbf{x}_i,\mathbf{x}_j) - \sum_{i=1}^N \alpha_i \\ s.t. \quad &\sum_{i=1}^N \alpha_i y_i = 0 \\ &0 \le \alpha_i \le C, \quad i=1, 2,\cdots,N \\ \end{aligned}$
我们需要求出目标函数极小化对应的参数 $N$ 维向量 $\boldsymbol{\alpha}^*$ 。但这个优化式比较复杂，很难直接优化，一般采用启发式方法——SMO算法求解。

SMO算法基本思想

SMO每次只优化两个变量，而将其他变量视为常数。

例如，认为 $\alpha_1$ 和 $\alpha_2$ 是变量， $\alpha_3,\alpha_4,\cdots,\alpha_N$ 都是常量，那么常量都可以从目标函数中去除，优化问题变成
$\begin{aligned} \min_{\alpha_i,\alpha_2} \quad \frac{1}{2} K_{11} \alpha_1^2 + \frac{1}{2} K_{22} \alpha_2^2 +& y_1 y_2 K_{12} \alpha_1 \alpha_2 - (\alpha_1 + \alpha_2) + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} \\ s.t. \quad &\alpha_1 y_1 + \alpha_2 y_2 = -\sum_{i=3}^N \alpha_i y_i = \varsigma \\ &0 \le \alpha_i \le C, \quad i=1, 2,\cdots,N \\ \end{aligned}$
其中 $K_{ij}=\kappa(\mathbf{x}_i,\mathbf{x}_j)$ 。由于 $y_1^2 = 1,y_2^2 = 1$ ，所以目标函数里没有写上。

SMO算法目标函数的优化

首先分析约束条件
$\alpha_1 y_1 + \alpha_2 y_2 = \varsigma \\ 0 \le \alpha_i \le C, \quad i=1, 2$
由于 $y_1,y_2$ 的取值只可能为1或-1，那么 $\alpha_1 y_1 + \alpha_2 y_2 = \varsigma$ 的形式有4种：
$\begin{aligned} &\alpha_1 + \alpha_2 = \varsigma \\ &\alpha_1 + \alpha_2 = -\varsigma \\ &\alpha_1 - \alpha_2 = \varsigma \\ &\alpha_1 - \alpha_2 = -\varsigma \end{aligned}$
加上 $\le \alpha_1 \le C, 0 \le \alpha_2 \le C$ 的限制，使得 $\alpha_1, \alpha_2$ 取值只能在 $\times [0,C]$ 的盒子内。

在这里插入图片描述
如上图所示， $\alpha_1, \alpha_2$ 被限制在盒子里的一条线段上，其中一个变量可以被另一个变量表示，所以两个变量的优化问题变成了一个变量的优化问题，不妨考虑为变量 $\alpha_2$ 的最优化问题。

我们采用的是启发式迭代法，假设上一轮迭代的解是 $\alpha_1^{old}, \alpha_2^{old}$ ，不受盒子约束得到的解是 $\alpha_2^{new,unc}$ ，经过盒子约束裁剪后得到的本轮迭代解是 $\alpha_1^{new}, \alpha_2^{new}$ 。

$\alpha_2^{new}$ 必须满足上图盒子内的线段约束，假设 $L$ 和 $H$ 分别是上图中 $\alpha_2^{new}$ 的下边界和上边界，有
$\le \alpha_2^{new} \le H$

对于 $y_1 \ne y_2$ ，若 $\varsigma \gt 0$ ， $\le \alpha_2^{new} \le C - \varsigma$ ；若 $\varsigma \lt 0$ ， $-\varsigma \le \alpha_2^{new} \le C$ 。那么
$\max(0, -\varsigma), \quad H = \min(C, C - \varsigma)$
代入 $\varsigma = \alpha_1^{old} - \alpha_2^{old}$ 有
$\max(0, \alpha_2^{old} - \alpha_1^{old}), \quad H = \min(C, C + \alpha_2^{old} - \alpha_1^{old})$
对于 $y_1 = y_2$ ，若 $\varsigma \gt 0$ ， $\varsigma - C \le \alpha_2^{new} \le C$ ；若 $\varsigma \lt 0$ ， $\le \alpha_2^{new} \le \varsigma$ 。那么
$\max(0, \varsigma - C), \quad H = \min(C, \varsigma)$
代入 $\varsigma = \alpha_1^{old} + \alpha_2^{old}$ 有
$\max(0, \alpha_1^{old} + \alpha_2^{old} - C), \quad H = \min(C, \alpha_1^{old} + \alpha_2^{old})$

如果通过求导得到 $\alpha_2^{new,unc}$ ，由下式可以得到 $\alpha_2^{new}$
$\alpha_2^{new} = \left\{ \begin{aligned} H &, \quad \alpha_2^{new,unc} \gt H\\ \alpha_2^{new,unc} &, \quad L \le \alpha_2^{new,unc} \le H \\ L &, \quad \alpha_2^{new,unc} \lt L \end{aligned} \right.$
那么，如何求解 $\alpha_2^{new,unc}$ 呢？

很简单，只需要将目标函数对 $\alpha_2$ 求偏导即可。

因为
$g(\mathbf{x}) = {\mathbf{w}^*}^T \phi(\mathbf{x}) + b^* = \sum_{i=1}^N \alpha_i^* y_i \kappa(\mathbf{x}_i, \mathbf{x}) + b^*$
为简单叙述，令
$\begin{aligned} v_j &= \sum_{i=3}^N y_i \alpha_i K_{ij} = \sum_{i=3}^N y_i \alpha_i \kappa(\mathbf{x}_i, \mathbf{x}_j) \\ &= g(\mathbf{x}_j) - \sum_{i=1}^2 y_i \alpha_i \kappa(\mathbf{x}_i, \mathbf{x}_j) - b \\ &= g(\mathbf{x}_j) - \sum_{i=1}^2 y_i \alpha_i K_{ij} - b \end{aligned}$
目标函数简化为
$W(\alpha_1, \alpha_2) = \frac{1}{2} K_{11} \alpha_1^2 + \frac{1}{2} K_{22} \alpha_2^2 + y_1 y_2 K_{12} \alpha_1 \alpha_2 - (\alpha_1 + \alpha_2) + y_1 \alpha_1 v_1 + y_2 \alpha_2 v_2$
由于 $\alpha_1 y_1 + \alpha_2 y_2 = \varsigma$ ，且 $y_1,y_2 \in \{1,-1\}$ ，可以得到
$\alpha_1 = y_1 (\varsigma - \alpha_2 y_2)$
代入目标函数消除 $\alpha_2$ ，
$\begin{aligned} W(\alpha_2) =& \frac{1}{2} y_1^2 K_{11} (\varsigma - \alpha_2 y_2)^2 + \frac{1}{2} K_{22} \alpha_2^2 + y_1^2 y_2 K_{12} (\varsigma - \alpha_2 y_2) \alpha_2 \\ &- y_1 (\varsigma - \alpha_2 y_2) - \alpha_2 + y_1^2 (\varsigma - \alpha_2 y_2) v_1 + y_2 \alpha_2 v_2 \\ =& \frac{1}{2} K_{11} (\varsigma - \alpha_2 y_2)^2 + \frac{1}{2} K_{22} \alpha_2^2 + y_2 K_{12} (\varsigma - \alpha_2 y_2) \alpha_2 \\ &- y_1 (\varsigma - \alpha_2 y_2) - \alpha_2 + (\varsigma - \alpha_2 y_2) v_1 + y_2 \alpha_2 v_2 \\ =& \frac{1}{2} K_{11} (\varsigma - \alpha_2 y_2)^2 + \frac{1}{2} K_{22} \alpha_2^2 + y_2 K_{12} (\varsigma - \alpha_2 y_2) \alpha_2 \\ &- y_1 (\varsigma - \alpha_2 y_2) - \alpha_2 + (\varsigma - \alpha_2 y_2) v_1 + y_2 \alpha_2 v_2 \end{aligned}$
目标函数对 $\alpha_2$ 求偏导，
$\frac{\partial W}{\partial \alpha_2} = K_{11} \alpha_2 + K_{22} \alpha_2 - 2 K_{12} \alpha_2 - y_2 K_{11} \varsigma + y_2 K_{12} \varsigma + y_1 y_2 - 1 - y_2 v_1 + y_2 v_2 = 0$
整理得：
$\begin{aligned} &(K_{11} + K_{22} - 2 K_{12}) \alpha_2 \\ =& y_2 K_{11} \varsigma - y_2 K_{12} \varsigma - y_1 y_2 + 1 + y_2 v_1 - y_2 v_2 \\ =& y_2 K_{11} \varsigma - y_2 K_{12} \varsigma - y_1 y_2 + y_2^2 + y_2 v_1 - y_2 v_2 \\ =& y_2 (K_{11} \varsigma - K_{12} \varsigma - y_1 + y_2 + v_1 - v_2) \\ =& y_2 \{K_{11} \varsigma - K_{12} \varsigma - y_1 + y_2 + [g(\mathbf{x}_1) - \sum_{i=1}^2 y_i \alpha_i K_{i1} - b] - [g(\mathbf{x}_2) - \sum_{i=1}^2 y_i \alpha_i K_{i2} - b]\} \\ =& y_2 [(K_{11} - K_{12}) \varsigma - y_1 + y_2 + g(\mathbf{x}_1) - g(\mathbf{x}_2) - \sum_{i=1}^2 y_i \alpha_i K_{i1} + \sum_{i=1}^2 y_i \alpha_i K_{i2}] \end{aligned}$
将 $\varsigma = \alpha_1 y_1 + \alpha_2 y_2$ 代入上式有
$\begin{aligned} &(K_{11} + K_{22} - 2 K_{12}) \alpha_2^{new,unc} \\ =& y_2 [(K_{11} - K_{12}) (\alpha_1^{old} y_1 + \alpha_2^{old} y_2) - y_1 + y_2 + g(\mathbf{x}_1) - g(\mathbf{x}_2) - \sum_{i=1}^2 y_i \alpha_i^{old} K_{i1} + \sum_{i=1}^2 y_i \alpha_i^{old} K_{i2}] \\ =& y_2 \{y_2 (K_{11} + K_{22} - 2K_{12}) \alpha_2^{old} + [g(\mathbf{x}_1) - y_1] - [g(\mathbf{x}_2) - y_2]\} \\ =& (K_{11} + K_{22} - 2K_{12}) \alpha_2^{old} + y_2 (E_1 - E_2) \end{aligned}$
其中， $E_i = g(\mathbf{x}_i) - y_i, \quad i=1,2$ 。

最终得到 $\alpha_2^{new,unc}$ 的表达式：
$\begin{aligned} \alpha_2^{new,unc} = \alpha_2^{old} + \frac{y_2 (E_1 - E_2)}{K_{11} + K_{22} - 2 K_{12}} \end{aligned}$
利用上面讲到的关系式
$\alpha_2^{new} = \left\{ \begin{aligned} H &, \quad \alpha_2^{new,unc} \gt H\\ \alpha_2^{new,unc} &, \quad L \le \alpha_2^{new,unc} \le H \\ L &, \quad \alpha_2^{new,unc} \lt L \end{aligned} \right.$
就能得到 $\alpha_2^{new}$ ，进而求得 $\alpha_1^{new} = y_1 (\varsigma - \alpha_2^{new} y_2)$ 。

SMO算法两个变量的选择

SMO算法需要选择合适的两个变量优化迭代，其余变量看作是常数，那么如何选择这两个变量呢？

第一个变量的选择

SMO算法称选择第一个变量的过程为外层循环，这个变量需要选择在训练集中违反KKT条件最严重的样本点。

对于样本点，要满足的KKT条件是：
$\alpha_i^* = 0 \Rightarrow y_i g(\mathbf{x}_i) \ge 1 \\ 0 \lt \alpha_i^* < C \Rightarrow y_i g(\mathbf{x}_i) = 1 \\ \alpha_i^* = C \Rightarrow y_i g(\mathbf{x}_i) \le 1$
一般来说，我们首选违反 $\lt \alpha_i^* \lt C \Rightarrow y_i g(\mathbf{x}_i)$ 这个条件的点，其次是违反 $\alpha_i^* = 0 \Rightarrow y_i g(\mathbf{x}_i) \ge 1$ 和 $\alpha_i^* = C \Rightarrow y_i g(\mathbf{x}_i) \le 1$ 的点。

第二个变量的选择

SMO算法称选择第二个变量迭代为内层循环，假设我们在外层循环已经找到了 $\alpha_1$ ，第二个变量 $\alpha_2$ 的选择标准是让 $E_1-E_2|$ 有足够大的变化。这是因为确定了 $\alpha_1$ ，就能确定 $E_1$ ，所以要想 $E_1-E_2|$ 最大，只需要在 $E_1$ 为正时，选择最小的 $E_i$ 作为 $E_2$ ，在 $E_1$ 为负时，选择最大的 $E_i$ 作为 $E_2$ ，可以将所有的 $E_i$ 保存下来加快迭代。

如果内存循环找到的点不能让目标函数有足够的下降，可以采用便利支持向量点来做 $\alpha_2$ ，知道目标函数有足够的下降，如果所有的支持向量做 $\alpha_2$ 都不能让目标函数有足够的下降，可以跳出循环，重新选择 $\alpha_1$ 。

计算截距 $b$ 和差值 $E_i$

在每次完成两个变量的优化后，需要重新计算截距 $b$ 。当 $\lt \alpha_1^{new} \lt C$ 时，由KKT条件可知：
$\sum_{i=1}^N \alpha_i y_i K_{i1} + b = y_1$
于是新的 $b_1^{new}$ 为：
$b_1^{new} = y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} - \alpha_1^{new} y_1 K_{11} - \alpha_2^{new} y_2 K_{21}$
由于
$\begin{aligned} &E_1 = g(\mathbf{x}_1) - y_1 = \sum_{i=3}^N \alpha_i y_i K_{i1} + \alpha_1^{old} y_1 K_{11} + \alpha_2^{old} y_2 K_{21} + b^{old} - y_1 \\ \Rightarrow&y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} = - E_1 + \alpha_1^{old} y_1 K_{11} + \alpha_2^{old} y_2 K_{21} + b^{old} \end{aligned}$
那么
$b_1^{new} = - E_1 - y_1 K_{11} (\alpha_1^{new} - \alpha_1^{old} - y_2 K_{21} (\alpha_2^{new} - \alpha_2^{old}) + b^{old})$
同样的，如果 $\lt \alpha_2^{new} \lt C$ ，那么有
$b_2^{new} = - E_2 - y_1 K_{12} (\alpha_1^{new} - \alpha_1^{old}) - y_2 K_{22} (\alpha_2^{new} - \alpha_2^{old}) + b^{old}$
最终的 $b^{new}$ 为：
$b^{new} = \frac{b_1^{new} + b_2^{new}}{2}$
得到 $b^{new}$ 后，我们更新 $E_i$ ：
$E_i = \sum_{S} y_i \alpha_i \kappa(\mathbf{x}_i, \mathbf{x}_j) + b^{new} - y_i$
其中， $S$ 是所有支持向量 $\mathbf{x}_j$ 的集合。

SMO算法总结

输入：线性可分的 $N$ 个样本 $(\mathbf{x}_i,y_i)$ ， $i=1,2,\cdots,N$ ， $\mathbf{x}_i$ 是 $m$ 维特征向量， $y_i \in \{1,-1\}$ 是标签(label)，精度 $e$ 。

输出：近似解 $\alpha$ 。

取初值 $\alpha^0 = 0, k = 0$ ；
选择 $\alpha_1^k$ 和 $\alpha_2^k$ ，求出新的 $\alpha_2^{new,unc}$ 。
$\begin{aligned} \alpha_2^{new,unc} = \alpha_2^k + \frac{y_2 (E_1 - E_2)}{K_{11} + K_{22} - 2 K_{12}} \end{aligned}$
按照下式求出 $\alpha_2^{k+1}$ ，
$\alpha_2^{k+1} = \left\{ \begin{aligned} H &, \quad \alpha_2^{new,unc} \gt H\\ \alpha_2^{new,unc} &, \quad L \le \alpha_2^{new,unc} \le H \\ L &, \quad \alpha_2^{new,unc} \lt L \end{aligned} \right.$
求出 $\alpha_1^{k+1} = y_1 (\varsigma - \alpha_2^{k+1} y_2)$ ；
求出 $b^{k+1}$ 和 $E_i$ ；
在精度 $e$ 范围内检查是否满足如下的终止条件：
$\sum_{i=1}^N \alpha_i y_i = 0 \\ 0 \le \alpha_i \le C, \quad i=1,2,\cdots,N \\ \alpha_i^{k+1} = 0 \Rightarrow y_i g(\mathbf{x}_i) \ge 1 \\ 0 \lt \alpha_i^{k+1} < C \Rightarrow y_i g(\mathbf{x}_i) = 1 \\ \alpha_i^{k+1} = C \Rightarrow y_i g(\mathbf{x}_i) \le 1$
如果满足则结束，返回 $\boldsymbol{\alpha}^{k+1}$ ，否则转到步骤2。