支持向量机SVM(4)-序列最小最优化(sequential minimal optimization SMO)算法

最新推荐文章于 2021-11-23 09:05:00 发布

「已注销」

最新推荐文章于 2021-11-23 09:05:00 发布

阅读量468

点赞数

CC 4.0 BY-SA版权

分类专栏：统计机器学习文章标签： Machine Learning

本文链接：https://blog.youkuaiyun.com/xu_ampl/article/details/90169599

统计机器学习专栏收录该内容

26 篇文章

订阅专栏

SMO算法是由Platt于1998年提出的，用于高效求解支持向量机学习问题的二次规划对偶问题。算法通过选择违反KKT条件最严重的样本点作为变量，构建并解决一个包含两个变量的二次规划子问题，以逐步优化所有变量。SMO包括变量选择、两个变量的二次规划求解和阈值b的计算。在每次优化两个变量后，更新阈值b和差值Ei，直至满足停止条件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SVM序列最小最优化算法SMO

SMO算法简介

序列最小最优化(sequential minimal optimization SMO)算法，由Platt于1998年提出，可以高效地实现支持向量机学习问题.
SMO算法要解如下凸二次规划的对偶问题
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} \quad(1)$ $\text { s.t. } \quad \sum_{i=1}^{N} \alpha_{i} y_{t}=0 \quad(2)$ $\leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N \quad(3)$ 在这个问题中，变量是拉格朗日乘子，一个变量 $\alpha_i$ 对应于一个样本点 $\left(x_{i}, y_{i}\right)$ ；变量的总数等于训练样本容量。与之对应的最优解需满足KKT条件为:
$\alpha_{i}=0 \Leftrightarrow y_{i} g\left(x_{i}\right) \geqslant 1 \quad(4)$ $0<\alpha_{i}<C \Leftrightarrow y_{i} g\left(x_{i}\right)=1 \quad(5)$ $\alpha_{i}=C \Leftrightarrow y_{i} g\left(x_{i}\right) \leqslant 1 \quad(6)$ 其中， $g\left(x_{i}\right)=\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)+b$

$(4)$ 式表明，在两条间隔线外面的点，对应前面的系数 $\alpha_i$ 为 $0$
$(5)$ 式表明，在两条间隔线上的点，对应前面的系数 $\alpha_i$ 为 $C$
$(6)$ 式表明，在两条间隔线里面的点，对应前面的系数 $\alpha_i$ 在 $0$ 和 $C$ 之间

以下几种情况出现将不会满足：
$y_{i} g(x_{i}) \leq 1$ 但 $\alpha_i <C$ ，则表明是不满足的，而原本的 $\alpha_i =C$
$y_{i} g(x_{i}) \geq 1$ 但 $\alpha_i >0$ ，则表明是不满足的，而原本的 $\alpha_i =0$
$y_{i} g(x_{i}) = 1$ 但 $\alpha_i =0$ 或者 $\alpha_i =C$ ，则表明是不满足的，而原本应该是 $0<\alpha_{i}<C$

SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，(因为KKT条件是该最优化问题的充分必要条件)那么这个最优化问题的解就得到了，否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题，这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。这时子问题可以通过解析方法求解，这样就可以大大提高整个算法的计算速度，子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定，如此，SMO算法将原问题不断分解为子问题对子问题的求解进而达到求解原问题的目的.
注意，子问题的两个变量中只有一个是自由变量，假设 $\alpha_1$ ， $\alpha_2$ 为两个变量，固定 $\alpha_{3}, \alpha_{4}, \cdots, \alpha_{N}$ ，那么由等式约束可知:
如果 $\alpha_2$ 确定，那么 $\alpha_1$ 也随之确定，所以子问题中同时更新两个变量。
假设变量个数为一个时，固定 $\alpha_{3}, \alpha_{4}, \cdots, \alpha_{N}$ ，此时 $\alpha_1$ 也已经固定， $\alpha_1$ 不可作为自由变量。
假设变量个数为三个时，这样无法控制自由变量个数。因此只能取两个变量，其中之一为自由变量。SMO算法包括两个部分：求解两个变量二次规划的解析方法和选择变量的启发式方法.

两个变量二次规划的求解方法

假设选择的两个变量时 $\alpha_{1}, \alpha_{2}$ ，其他变量 $\alpha_i(i=3,4,...,N)$ 是固定的，于是SMO的最优化问题 $(1)\sim(3)$ 的子问题可以写成:
$\min _{\alpha_{1}, \alpha_{2}} \; W\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2}\\- \left(\alpha_{1}+\alpha_{2}\right)+y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 1}+y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 2} \quad(7)$ $\text { s.t. } \quad \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta \quad(8)$ $\leqslant \alpha_{i} \leqslant C, \quad i=1,2\quad(9)$
其中， $K_{i j}=K\left(x_{i}, x_{j}\right), i, j=1,2, \cdots, N, \quad \zeta$ 是常数，目标函数式中省略了不含 $\alpha_{1}, \alpha_{2}$ 的常数项.为了求解两个变量的二次规划问题 $(7)\sim(9)$ ,首先分析约束条件，然后在此约束条件下求极小。
由于只有两个变量 $\alpha_{1}, \alpha_{2}$ ，约束可以用二维空间的图形表示：

对于上图由条件 $\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta$ ，当 $y_{1} \neq y_{2}$ ，即 $y_1,y_2$ 异号，有 $\alpha_1-\alpha_2=\zeta$ ,即左图，当 $y_{1}=y_{2}$ ，即 $\alpha_{1}+\alpha_{2}=\zeta$ 得右图，不等式约束 $\leqslant \alpha_{i} \leqslant C, \quad i=1,2$ ，使得 $(\alpha_1,\alpha_2)$ 在盒子 $\times[0,C]$ ,等式约束 $\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta$ 使 $(\alpha_1,\alpha_2)$ 在平行于盒子 $\times[0,C]$ 的对角线的直线上，因此要求的是目标函数在一条平行于对角线的线段上的最优值，实质上是单变量的最优化问题，不妨考虑为变量的最优化问题

假设问题 $(7)\sim(9)$ 的初始可行解为 $\alpha_1^{old},\alpha_2^{old}$ ，最优解为 $\alpha_1^{new},\alpha_2^{new}$ ，并且假设 $\alpha_2$ 沿着约束方向未经剪辑时的最优解为 $\alpha_2^{new,unc}$
由于 $\alpha_2^{new}$ 满足不等式约束 $\leqslant \alpha_{i} \leqslant C, \quad i=1,2$ ，所以最优解 $\alpha_2^{new}$ 的取值范围必须满足条件 $\leqslant \alpha_{2}^{\mathrm{new}} \leqslant H$ 其中， $L$ 与 $H$ 是 $\alpha_2^{new}$ 所在对角线段端点的界，如上图 $y_1,y_2$ 异号时，
$L=\max \left(0, \alpha_{2}^{{old}}-\alpha_{1}^{{old}}\right) \quad H=\min \left(C, C+\alpha_{2}^{{ old }}-\alpha_{1}^{{ old }}\right)$ 此处需要具体解释一下，结合上图
当 $\zeta>0$ 时, $\alpha_1-\alpha_2=\zeta$ ,处于对角线的下方， $\alpha_2$ 下界为图中的 $L 1 = 0$ ，上界为图中的 $H1=C+\alpha_2-\alpha_1$
当 $\zeta<0$ 时, $\alpha_1-\alpha_2=\zeta$ ,处于对角线的下方， $\alpha_2$ 下界为图中的 $L2=-\zeta$ ，上界为图中的 $H 2 = C$
综合上述两种情况可得要满足 $\leqslant \alpha_{2}^{{new}} \leqslant H$ 须有 $L=\max \left(0, \alpha_{2}^{{old}}-\alpha_{1}^{{old}}\right) \quad H=\min \left(C, C+\alpha_{2}^{{ old }}-\alpha_{1}^{{ old }}\right)$ 同理如果 $y_1,y_2$ 同号，则
$L=\max \left(0, \alpha_{2}^{ { old }}+\alpha_{1}^{{ old }}-C\right) \quad H=\min \left(C, \alpha_{2}^{{old}}+\alpha_{1}^{{old}}\right)$ 下面，首先沿着约束方向未经剪辑即考虑不等式约束时 $\leqslant \alpha_{i} \leqslant C, \quad i=1,2$ 的最优解为 $\alpha_2^{new,unc}$ ，然后再求剪辑后 $\alpha_2$ 的解 $\alpha_2^{new}$ ，为了简洁叙述下面定理我们首先记 $g(x)=\sum_{i=1}^{N} \alpha_{i} y_{i} K\left(x_{i}, x\right)+b \quad(10)$ 令 $E_{i}=g\left(x_{i}\right)-y_{i}=\left(\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{j}, x_{i}\right)+b\right)-y_{i}, \quad i=1,2 \quad(11)$ 当时 $i = 1, 2$ ， $E_i$ 为函数 $g (x)$ 对输入 $x_i$ 的预测值与真实输出 $y_i$ 之差.
定理6 最优化问题 $(7)\sim(9)$ 沿着约束方向未经剪辑时的解是
$\alpha_{2}^{{new}, {unc}}=\alpha_{2}^{{old}}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta} \quad(12)$ 其中， $\eta=K_{11}+K_{22}-2 K_{12}=\left\|\Phi\left(x_{1}\right)-\Phi\left(x_{2}\right)\right\|^{2}$
$\phi(x)$ 是输入空间到特征空间的映射， $E_i,i=1,2$ ，由式 $(11)$ 给出
经剪辑后 $\alpha_2$ 的解是
$\alpha_{2}^{ { new }}=\left\{\begin{array}{ll}{H,} & {\alpha_{2}^{ { new, unc }}>H} \\ {\alpha_{2}^{ { new, unc }},} & {L \leqslant \alpha_{2}^{ { new, unc }} \leqslant H} \quad(13)\\ {L,} & {\alpha_{2}^{{ new, unc }}<L}\end{array}\right.$ 由 $\alpha_{2}^{new}$ 求得 $\alpha_{1}^{new}$ 是 $\alpha_{1}^{{new}}=\alpha_{1}^{{old}}+y_{1} y_{2}\left(\alpha_{2}^{{old}}-\alpha_{2}^{{new}}\right) \quad(14)$
证明引进记号
$v_{i}=\sum_{j=3}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)=g\left(x_{i}\right)-\sum_{j=1}^{2} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)-b, \quad i=1,2$ 目标函数写成
$W\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} -\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2} \quad(15)$ 由 $\alpha_{1} y_{1}=\zeta-\alpha_{2} y_{2}$ 及 $y_{i}^{2}=1$ ，两边同时乘以 $y_1$ , 可将 $\alpha_1$ 表示为 $\alpha_{1}=\left(\zeta-y_{2} \alpha_{2}\right) y_{1}$ 将其带入式 $(15)$ ，得到的只是 $\alpha_2$ 的函数的目标函数:
$W\left(\alpha_{2}\right)=\frac{1}{2} K_{11}\left(\zeta-\alpha_{2} y_{2}\right)^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{2} K_{12}\left(\zeta-\alpha_{2} y_{2}\right) \alpha_{2}\\-\left(\zeta-\alpha_{2} y_{2}\right) y_{1}-\alpha_{2}+v_{1}\left(\zeta-\alpha_{2} y_{2}\right)+y_{2} v_{2} \alpha_{2}$ 对 $\alpha_2$ 求导数
$\frac{\partial W}{\partial \alpha_{2}}=K_{11} \alpha_{2}+K_{22} \alpha_{2}-2 K_{12} \alpha_{2} -K_{11} \zeta y_{2}+K_{12} \zeta y_{2}+y_{1} y_{2}\\-1-v_{1} y_{2}+y_{2} v_{2}$ 令其为 $0$ ，得到 $\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}=y_{2}\left(y_{2}-y_{1}+\zeta K_{11}-\zeta K_{12}+v_{1}-v_{2}\right) \\ =y_{2}\left[y_{2}-y_{1}+\zeta K_{11}-\zeta K_{12}+\left(g\left(x_{1}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{1 j}-b\right)\right. \\-\left(g\left(x_{2}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{2 j}-b\right) \Biggr ]$ 将 $\zeta=\alpha_{1}^{ { old }} y_{1}+\alpha_{2}^{ { old }} y_{2}$ 代入得到
$\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{{new}, {unc}}\\= y_{2}\left(\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{{old}} y_{2}+y_{2}-y_{1}+g\left(x_{1}\right)-g\left(x_{2}\right)\right)\\=\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{{ old }}+y_{2}\left(E_{1}-E_{2}\right)$ 将 $\eta=K_{11}+K_{22}-2 K_{12}$ 代入于是得到 $\alpha_{2}^{{new}, {unc}}=\alpha_{2}^{{old}}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta}$ 要使其满足不等式约束必将其限制在区间 $[L, H]$ 内，从而得到 $\alpha_2 ^{new}$ 表达式 $(13)$ ,由等式约束 $(8)$ 得到 $\alpha_1 ^{new}$ 的表达式 $(14)\alpha_{1}^{{new}}=\alpha_{1}^{{old}}+y_{1} y_{2}\left(\alpha_{2}^{{old}}-\alpha_{2}^{{new}}\right)$ ，于是得到最优化问题 $(7)\sim(9)$ 的解 $(\alpha_{1}^{{new}},\alpha_{2}^{{new}})$

变量的选择方法

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件的
1.第1个变量的选择
SMO称选择第1个变量的过程为外层循环，外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量，检验训练样本点 $\left(x_{i}, y_{i}\right)$ 是否满足KKT条件，即 $\alpha_{i}=0 \Leftrightarrow y_{i} g\left(x_{i}\right) \geqslant 1 \quad(4)$ $0<\alpha_{i}<C \Leftrightarrow y_{i} g\left(x_{i}\right)=1 \quad(5)$ $\alpha_{i}=C \Leftrightarrow y_{i} g\left(x_{i}\right) \leqslant 1 \quad(6)$ 其中， $g\left(x_{i}\right)=\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)+b$
该检验是在 $\varepsilon$ 范围内进行的，在检验过程中，外层循环首先遍历所有满足条件 $0<\alpha_{i}<C$ 的样本点，即在间隔边界上的支持向量点，检验它们是否满足KKT条件，如果这些样本点都满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件.
2.第2个变量的选择
SMO称选择第2个变量的过程称为内层循环，假设在外层循环中已经找到第一个变量 $\alpha_1$ ,现在要在内层循环中找第2个变量 $\alpha_2$ ，第2个变量选择的标准是希望能使 $\alpha_2$ 有足够大的变化.
由式 $(12)$ 和 $(14)$ 可知， $\alpha_2 ^{new}$ 是依赖于 $E_1-E_2|$ 的，为了加快计算速度，一种简单的做法是选择 $\alpha_2$ ，使其对应的
$E_1-E_2|$ 最大，因 $\alpha_1$ 已定， $E_1$ 也确定了，如果 $E_1$ 是正的，那么选择最小的 $E_i$ 作为 $E_2$ ，如果 $E_1$ 是负的，那么选择最大的 $E_i$ 作为 $E_2$ ，为了节省计算时间，将所有 $E_i$ 值保存在一个列表中.
在特殊情况下，如果内层循环通过以上方法选择的 $\alpha_2$ 不能使目标函数有足够的下降，那么采用以下启发式规则继续选择 $\alpha_2$ ，遍历在间隔边界上的支持向量点，依次将其对应的变量作为 $\alpha_2$ 试用，直到目标函数有足够的下降，若找不到合适的 $\alpha_2$ ，那么遍历训练数据集；若仍找不到合适的 $\alpha_2$ 。则放弃第1个 $\alpha_1$ ，再通过外层循环寻求另外的 $\alpha_1$
3.计算阈值 $b$ 和差值 $E_i$
在每次完成两个变量的优化后，都要重新计算阈值 $b$ ，当 $0<\alpha_{1}^{{ new }}<C$ 时，由KKT条件知：
$\sum_{i=1}^{N} \alpha_{i} y_{i} K_{i 1}+b=y_{1}$ 于是 $b_{1}^{{new}}=y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}-\alpha_{1}^{{naw}} y_{1} K_{11}-\alpha_{2}^{{naw}} y_{2} K_{21} \quad(16)$ 由 $E_1$ 的定义式有
$E_{1}=\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}+\alpha_{1}^{{ old }} y_{1} K_{11}+\alpha_{2}^{ { old }} y_{2} K_{21}+b^{ { old }}-y_{1}$ 式 $(16)$ 的前两项可写成： $y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{n}=-E_{1}+\alpha_{1}^{ { old }} y_{1} K_{11}+\alpha_{2}^{{ old }} y_{2} K_{21}+b^{ { old }}$ 带入式 $(16)$ 可得 $b_{1}^{{new}}=-E_{1}-y_{1} K_{11}\left(\alpha_{1}^{{new}}-\alpha_{1}^{{old}}\right)-y_{2} K_{21}\left(\alpha_{2}^{{new}}-\alpha_{2}^{{old}}\right)+b^{{old}}$ 同样，如果 $0<\alpha_{2}^{{ new }}<C$ ，那么 $b_{2}^{{new}}=-E_{2}-y_{1} K_{12}\left(\alpha_{1}^{{new}}-\alpha_{1}^{{old}}\right)-y_{2} K_{22}\left(\alpha_{2}^{{new}}-\alpha_{2}^{{old}}\right)+b^{{old}}$ 如果 $\alpha_1 ^{new},\alpha_2 ^{new}$ 同时满足条件 $0<\alpha_{i}^{{new}}<C, \quad i=1,2$ ，那么 $b_{1}^{{new}}=b_{2}^{{new}}$ ，如果 $\alpha_1 ^{new},\alpha_2 ^{new}$ ，是 $0$ 或 $C$ ，那么 $b_1 ^{new},b_2 ^{new}$ ，以及它们之间的数都是符合KKT条件的阈值，这时选择它们的中点作为 $b_2 ^{new}$ .在每次完成两个变量的优化后，还必须更新对应的的 $E_i$ 值，并将它们保存在列表中， $E_i$ 值的更新要用到 $b_2 ^{new}$ 值，以及所有支持向量对应的 $\alpha_j$ :
$E_{i}^{{new}}=\sum_{S} y_{j} \alpha_{j} K\left(x_{i}, x_{j}\right)+b^{{new}}-y_{i}$ 其中， $S$ 是所有支持向量 $x_j$ 的集合.

SMO算法流程

输入：训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$
其中， $x_{i} \in \mathcal{X}=\mathbf{R}^{n}, \quad y_{i} \in \mathcal{Y}=\{+1,-1\}, \quad i=1,2, \cdots, N$ ，精度 $\varepsilon$ ：
输出:近似解 $\hat{\alpha}$
(1)取初值 $\alpha^{(0)}=0$ ，令 $k = 0$ ;
(2)选取优化变量 $\alpha_{1}^{(k)}, \alpha_{2}^{(k)}$ ,解析求解两个变量的最优化问题 $(7)\sim(9)$ ，求得最优解 $\alpha_{1}^{(k+1)}, \alpha_{2}^{(k+1)}$ ，更新 $\alpha$ 为 $\alpha^{k+1}$
(3)若在精度 $\varepsilon$ 范围内满足停机条件
$\sum_{i=1}^{N} \alpha_{i} y_{i}=0$ $\leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$ $y_{i} \cdot g\left(x_{i}\right)=\left\{\begin{array}{ll}{\geqslant 1,} & {\left\{x_{i} | \alpha_{i}=0\right\}} \\ {=1,} & {\left\{x_{i} | 0<\alpha_{i}<C\right\}} \\ {\leqslant 1,} & {\left\{x_{i} | \alpha_{i}=C\right\}}\end{array}\right.$ 其中， $g\left(x_{i}\right)=\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{j}, x_{i}\right)+b$ 则转(4);否则令 $k = k + 1$ ，转(2);
(4) 取 $\hat{\alpha}=\alpha^{(k+1)}$

注：第一轮迭代由于没有支持向量，不迭代 $b$ 和 $E$ .
对于每次迭代选择 $\alpha_i$ 和 $\alpha_j$ 的启发式方法，其包括以下两个步骤:
(1)先扫描所有乘子，把第一个违反KKT条件的作为更新对象，令为 $\alpha_j$ ；
(2)在所有不违反KKT条件的乘子中，选择使 $\left|E_{i}-E_{j}\right|$ 最大的 $\alpha_i$
需要注意的是，每次更新完所选的 $\alpha_i$ 和 $\alpha_j$ 后，都需要重新计算 $b,E_i$ .

参考：
李航《统计学习方法》
http://www.cnblogs.com/pinard/p/6111471.html
https://blog.youkuaiyun.com/m0_37622530/article/details/80933353
支持向量机通俗导论（理解SVM的三层境界）
https://blog.youkuaiyun.com/v_july_v/article/details/7624837