SVM支持向量机+python代码复现(二)

支持向量机：KKT条件与SMO算法解析

最新推荐文章于 2025-07-27 11:57:44 发布

原创最新推荐文章于 2025-07-27 11:57:44 发布 · 309 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #python #机器学习 #svm

机器学习、人工智能同时被 2 个专栏收录

58 篇文章

订阅专栏

笔记

57 篇文章

订阅专栏

本文围绕支持向量机展开，先引入KKT条件求解w、b中拉格朗日算子λ，得出w和b的表达式。接着介绍SMO算法，先阐述坐标上升法原理，再说明SMO算法与坐标上升法类似，通过固定两个分量求解目标函数，最终推导出λ2new和λ1new的计算公式。

KKT条件

对于b的值，我们需要引入KKT条件，只要原问题和对偶问题是强对偶关系，那么我们就说其满足KKT条件，此处不做证明，感兴趣的读者可以自己查阅。对于我们此处要解决的问题，其一定满足以下条件
$\left\{ \begin{matrix} \frac{\partial{L(w,b,\lambda)}}{\partial{w}}=0,\frac{\partial{L(w,b,\lambda)}}{\partial{b}}=0. \\\lambda_i[1-y_i(w^Tx_i+b)]=0. \\1-y_i(w^Tx_i+b) \le0. \\\lambda_i \ge0. \end{matrix} \right.$
对于KKT条件，因为 $λi[1−yi(wTxi+b)]=0\lambda_i[1-y_i(w^Tx_i+b)]=0$ ，所以要么就是 $λi=0\lambda_i=0$ ，要么就是 $1-y_i(w^Tx_i+b)=0$ ，

我们要寻找b的表达式，显然在等式中，里面包含有b这个量，但倘若是 $λi=0\lambda_i=0$ ，那么等式中的b也会毫无意义，因此，为了寻找b，只能够在λ不为0的时候找到。所以
$\begin{equation} \begin{aligned} &\lambda_i[1-y_i(w^Tx_i+b)]=0 \rightarrow 1-y_i(w^Tx_i+b)=0 \\即 \hspace{1cm}& y_i(w^Tx_i+b)=1 \\等式左右乘以\hspace{1cm}& w^Tx_i+b=y_i \\即 \hspace{1cm}& b=y_i-w^Tx_i=y_i-\sum\limits_{i=1}^n\lambda_iy_ix_i^Tx_i \end{aligned} \end{equation}$
至此，我们得到
$w=\sum\limits_{i=1}^n\lambda_iy_ix_i;b=y_i-\sum\limits_{i=1}^n\lambda_iy_ix_i^Tx_i$
那么接下来的问题就变成了如何求出w、b中打拉格朗日算子λ。我们回到对偶问题
$\left\{ \begin{matrix} \max\limits_{\lambda}\sum\limits_{i=1}^n\lambda_i-\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j \\s.t. \hspace{1cm} \lambda_i \ge 0.i \in 1,2,\cdots n \\\sum\limits_{i=1}^n\lambda_iy_i=0 \end{matrix} \right.$
乍一看，我们好像又回到了原点，这到底还是一个带有n个约束的极值问题，但是，现在的目标函数中，已经没有了w，b，只有λ这一个变量了，并且我们还有了w，b与λ的关系式。因此，我们只需要求出λ，就可以了。

SMO算法

SMO算法和坐标上升法有些类似，先了解一下坐标上升法对SMO有很大帮助。

坐标上升法

举个栗子，假设我们现在有一个二元函数。
$f(x_1,x_2)=2x_1^2-3x_2^2+x_1x_2$
如果我们要求它的极值，那么就可以使用坐标上升法。

坐标上升法的核心思想是，选定一个变量，固定住其余的变量，然后求导不断迭代求出最终的结果。

比如在上面的例子中，我们选定 $x_1$ ，固定 $x_2$ ，然后对 $x_1$ 求导得0
$4x_1+x_2=0 \rightarrow x_1=-\frac{x_2}{4}$
再选定 $x_2$ ，固定住 $x_1$ ，对 $x_2$ 求导得0
$-6x_2+x_1=0 \rightarrow x_2=\frac{x_1}{6}$
得到了 $x_1、x_2$ 的公式，接下来我们只需要随机初始化 $x_1,x_2$ 的值，比如 $x_1=1,x_2=2$ ，接下来就开始迭代

①选定 $x_1$ ，固定 $x_2$ ， $x1=−24=−0.5x_1=-\frac{2}{4}=-0.5$

②选定 $x_2$ ，固定 $x_1$ ， $x2=−0.56x_2=\frac{-0.5}{6}$

③循环①②步骤，直到模型收敛。

为什么坐标上升法可以收敛？道上的事儿少打听。总之这种方法就是可以逐渐逼近收敛。实际上就是一个一个分量（方向）地走。

而SMO与坐标上升法类似，只不过SMO是固定两个分量罢了，其他都一样。为什么要固定两个分量？既然坐标上升法理论上可以收敛了，为什么不直接采用呢？我们来看 $∑i=1nλiyi=0\sum\limits_{i=1}^n\lambda_iy_i=0$ 这个约束条件，如果我们选定了了 $λ1\lambda_1$ ，固定其余变量，那么依据约束条件，我们直接就可以算出 $λ1\lambda_1$ 的值了，就没有意义了啊。

那么我们对下面的目标函数先保留 $λ1、λ2\lambda_1、\lambda_2$ 。
$\left\{ \begin{matrix} \max\limits_{\lambda}\sum\limits_{i=1}^n\lambda_i-\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j \\s.t. \hspace{1cm} \lambda_i \ge 0.i \in 1,2,\cdots n \\\sum\limits_{i=1}^n\lambda_iy_i=0 \end{matrix} \right.$

对于约束条件保留，我们拆开
$\begin{equation} \begin{aligned} &\lambda_1y_1+\lambda_2y_2+\sum\limits_{i=3}^n\lambda_iy_i=0 \\&因为：\sum\limits_{i=3}^n\lambda_iy_i是一个定值 \\&令：\sum\limits_{i=3}^n\lambda_iy_i=-C \\&得：\lambda_1y_1=C-\lambda_2y_2 \\&左右两边乘以y_1得： \\&\lambda_1=(C-\lambda_2y_2)y_1 \end{aligned} \end{equation}$
对于目标函数，我们拆开
$\begin{equation} \begin{aligned} L(\lambda_1,\lambda_2)=&\sum\limits_{i=1}^n\lambda_i-\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j \\&=\lambda_1+\lambda_2+\sum\limits_{i=3}^n\lambda_i-\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j \end{aligned} \end{equation}$

对于后面的 $∑i=1n∑j=1nλiyiλjyjxiTxj\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j$ ，我们单独写开，因为有点复杂。并且为了表达简便，令 $x_i^Tx_j=K_{ij}=K_{ji}$ 。

$\begin{equation} \begin{aligned} &对于\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j \\&有以下几种可能 \\&①i=1,j=1 \rightarrow \lambda_1y_1\lambda_1y_1K_{11} \rightarrow \lambda_1^2K_{11} \\&②i=1,j=2 \rightarrow \lambda_1y_1\lambda_2y_2K_{12} \\&③i=1,j\ge3 \rightarrow \sum\limits_{j=3}^n\lambda_1y_1\lambda_jy_jK_{1j} \\&④i=2,j=1 \rightarrow \lambda_2y_2\lambda_1y_1K_{21} \\&⑤i=2,j=2 \rightarrow \lambda_2y_2\lambda_2y_2K_{22} \rightarrow \lambda_2^2K_{22} \\&⑥i=2,j\ge3 \rightarrow \sum\limits_{j=3}^n\lambda_2y_2\lambda_jy_jK_{2j} \\&⑦i\ge3,j=1 \rightarrow \sum\limits_{i=3}^n\lambda_iy_i\lambda_1y_1K_{i1} \\&⑧i\ge3,j=2 \rightarrow \sum\limits_{i=3}^n\lambda_iy_i\lambda_2y_2K_{i2} \\&⑨i\ge3,j\ge3 \rightarrow \sum\limits_{i=3}^n\sum\limits_{j=3}^n\lambda_iy_i\lambda_jy_jK_{ij} \end{aligned} \end{equation}$
接着只需要合并同类项然后相加，再乘以前面的\frac{1}{2}即可
$\begin{equation} \begin{aligned} L(\lambda_1,\lambda_2)=&\sum\limits_{i=1}^n\lambda_i-\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\lambda_iy_i\lambda_jy_jx_i^Tx_j \\&=\lambda_1+\lambda_2+\sum\limits_{i=3}^n\lambda_i-\frac{1}{2}\left(\lambda_1^2K_{11}+\lambda_2^2K_{22}+\\2\lambda_1y_1\lambda_2y_2K_{12}+2\sum\limits_{j=3}^n\lambda_1y_1\lambda_jy_jK_{1j}+2\sum\limits_{j=3}^n\lambda_2y_2\lambda_jy_jK_{2j}+\sum\limits_{i=3}^n\sum\limits_{j=3}^n\lambda_iy_i\lambda_jy_jK_{ij} \right) \end{aligned} \end{equation}$
将 $λ1=(C−λ2y2)y1\lambda_1=(C-\lambda_2y_2)y_1$ 代入，得
$\begin{equation} \begin{aligned} L(\lambda_2)&=(C-\lambda_2y_2)y_1+\lambda_2+\sum\limits_{i=3}^n\lambda_i-\frac{1}{2}\left([(C-\lambda_2y_2)y_1]^2K_{11}+\lambda_2^2K_{22}+2[(C-\lambda_2y_2)y_1]y_1\lambda_2y_2K_{12}+\\2\sum\limits_{j=3}^n[(C-\lambda_2y_2)y_1]y_1\lambda_jy_jK_{1j}+2\sum\limits_{j=3}^n\lambda_2y_2\lambda_jy_jK_{2j}+\sum\limits_{i=3}^n\sum\limits_{j=3}^n\lambda_iy_i\lambda_jy_jK_{ij} \right) \\&=(C-\lambda_2y_2)y_1+\lambda_2+\sum\limits_{i=3}^n\lambda_i-\frac{1}{2}\left( (Cy_1-\lambda_2y_2y_1)^2K_{11}+\lambda_2^2K_{22}+2C\lambda_2y_2K_{12}-2\lambda_2^2K_{12}\\+ 2\sum\limits_{j=3}^n(C\lambda_jy_jK_{1j}-\lambda_2y_2\lambda_jy_jK_{1j})+2\sum\limits_{j=3}^n\lambda_2y_2\lambda_jy_jK_{2j}+\sum\limits_{i=3}^n\sum\limits_{j=3}^n\lambda_iy_i\lambda_jy_jK_{ij} \right ) \end{aligned} \end{equation}$
对其关于 $λ2\lambda_2$ 求导等于0
$\begin{equation} \begin{aligned} &\frac{\partial{L(\lambda_2)}}{\partial{\lambda_2}} \\&=-y_2y_1+1-\frac{1}{2} \left ( 2(Cy_1-\lambda_2y_2y_1)(-y_2y_1)K_{11}+2\lambda_2K_{22}+2Cy_2K_{12}-4\lambda_2K_{12}-2\sum\limits_{j=3}^ny_2\lambda_jy_jK_{1j}\\+2\sum\limits_{j=3}^ny_2\lambda_jy_jK_{2j} \right) \\&=-y_2y_1+1+Cy_2K_{11}-\lambda_2K_{11}-\lambda_2K_{22}-Cy_2K_{12}+2\lambda_2K_{12}+\sum\limits_{j=3}^ny_2\lambda_jy_jK_{1j}-\sum\limits_{j=3}^ny_2\lambda_jy_jK_{2j} \\&=-y_2y_1+1+Cy_2K_{11}-\lambda_2K_{11}-\lambda_2K_{22}-Cy_2K_{12}+2\lambda_2K_{12}+y_2\sum\limits_{j=3}^n\lambda_jy_jK_{1j}-y_2\sum\limits_{j=3}^n\lambda_jy_jK_{2j}=0 \end{aligned} \end{equation}$

将 $λ2\lambda_2$ 单独提到一边（注意，因为SMO是迭代式算法，所以我们都有一个初始的λ，为了区分,我们用 $λnew\lambda^{new}$ 代表新的值，用 $λold\lambda^{old}$ 代表旧的值）
$\lambda_2^{new}(K_{11}+K_{22}-2K_{12})=1-y_2y_1+Cy_2K_{11}-Cy_2K_{12}+y_2\sum\limits_{j=3}^n\lambda_jy_jK_{1j}-y_2\sum\limits_{j=3}^n\lambda_jy_jK_{2j}$
我们知道 $f(x)=w^Tx+b$ ，当取 $x_1$ 时，得
$\begin{equation} \begin{aligned} f(x_1)&=w^Tx_1+b \\&=\sum\limits_{i=1}^n(\lambda_iy_ix_i^Tx_1)+b \\&=\lambda_1y_1x_1^Tx_1+\lambda_2y_2x_2^Tx_1+\sum\limits_{i=3}^n(\lambda_iy_iK_{i1})+b \\&=\lambda_1y_1K_{11}+\lambda_2y_2K_{21}+\sum\limits_{i=3}^n(\lambda_iy_iK_{i1})+b \\&移项得： \\&\sum\limits_{i=3}^n(\lambda_iy_iK_{i1})=f(x_1)-\lambda_1y_1K_{11}-\lambda_2y_2K_{21}-b \end{aligned} \end{equation}$
同理得 $x_2$
$\sum\limits_{i=3}^n(\lambda_iy_iK_{i2})=f(x_2)-\lambda_1y_1K_{12}-\lambda_2y_2K_{22}-b$
因为 $K_{ij}=K_{ji}$ ，仔细看所得的式子，它刚好在我们对 $λ2\lambda_2$ 求导所得的式子，将其代入，并且此时的λ都是旧的λ
$\begin{equation} \begin{aligned} \lambda_2(K_{11}+K_{22}-2K_{12})&=1-y_2y_1+Cy_2K_{11}-Cy_2K_{12}+y_2\sum\limits_{j=3}^n\lambda_jy_jK_{1j}-y_2\sum\limits_{j=3}^n\lambda_jy_jK_{2j} \\&=1-y_2y_1+Cy_2K_{11}-Cy_2K_{12}+y_2 \left ( f(x_1)-\lambda_1^{old}y_1K_{11}-\lambda_2^{old}y_2K_{21}-b \right ) \\&-y_2 \left( f(x_2)-\lambda_1^{old}y_1K_{12}-\lambda_2^{old}y_2K_{22}-b \right) \\&=y_2 ( y_2-y_1+CK_{11}-CK_{12}+f(x_1)-\lambda_1^{old}y_1K_{11}-\lambda_2^{old}y_2K_{21}-b-f(x_2)+ \\& \lambda_1^{old}y_1K_{12}+\lambda_2^{old}y_2K_{22}+b) \end{aligned} \end{equation}$
将 $C=λ1y1+λ2y2C=\lambda_1y_1+\lambda_2y_2$ 回代
$\begin{equation} \begin{aligned} &\lambda_2^{new}(K_{11}+K_{22}-2K_{12}) \\&= y_2\left( y_2-y_1+\lambda_1^{old}y_1K_{11}+\lambda_2^{old}y_2K_{11}-\lambda_1^{old}y_1K_{12}-\lambda_2^{old}y_2K_{12}+f(x_1)-\lambda_1^{old}y_1K_{11} \\-\lambda_2^{old}y_2K_{21}-b-f(x_2)+\lambda_1^{old}y_1K_{12}+\lambda_2^{old}y_2K_{22}+b \right ) \\&=y_2\left( y_2-y_1+\lambda_2^{old}y_2K_{11}-2\lambda_{2}^{old}y_2K_{21}+f(x_1)-f(x_2)+\lambda_{2}^{old}y_{2}K_{22} \right ) \\&= y_2\left( [f(x_1)-y_1]-[f(x_2)-y_2]+\lambda_{2}^{old}y_2[K_{11}+K_{22}-2K_{21}] \right) \\&等式两边除以K_{11}+K_{22}-2K_{21} \\&\lambda_{2}^{new}=\frac{y_2\left([f(x_1)-y_1]-[f(x_2)-y_2]\right)}{K_{11}+K_{22}-2K_{21}}+\lambda_2^{old} \end{aligned} \end{equation}$
为了表达简便，我们用
$\eta=K_{11}+K_{22}-2K_{21}\\E_i=f(x_i)-y_i$
所以最终
$\lambda_2^{new}=\lambda_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$