SVM算法理论推导及python实现

最新推荐文章于 2025-05-22 16:40:19 发布

原创最新推荐文章于 2025-05-22 16:40:19 发布 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#SVM #python #math

机器学习专栏收录该内容

8 篇文章

订阅专栏

本文深入浅出地介绍了SVM算法理论及其SMO优化方法。从SVM的原始问题出发，逐步推导出SMO算法的具体实现过程，并详细解释了如何选择更新的变量、计算阈值以及迭代优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载请注明出处: SVM算法理论推导及python实现

本文面向的读者为掌握SVM基础前置知识如读过《统计学习方法》，并希望对SMO(Sequential Minimal Optimization)细节有更深入了解的人群。因为笔者想要实现一个简易的SVM,为了搞懂这部分费了不少工夫，所以写下这一篇嚼过的文章，目的是让读者跟着顺序阅读一定能弄懂。自己的行文习惯是简单的地方不能说太复杂，复杂的地方一定会说清楚

一, 推导至SMO要解决的SVM对偶形式

对于含soft margin的支持向量机, 其primitive problem:
$\begin{aligned} \\ & \min_{w,b,\xi} \quad \dfrac{1}{2} \| w \|^{2} + C \sum_{i=1}^{N} \xi_{i} \tag{1} \\ & s.t. \quad y_{i} \left( w \cdot x_{i} + b \right) \geq 1 - \xi_{i}, \quad i=1,2, \cdots, N \\ & \quad \quad \; \; \, \xi_{i} \ge 0, \quad i=1,2, \cdots, N \end{aligned}$
求解此原始问题：

1, 构建Lagrange Function

引入拉格朗日乘子 $\alpha_{i} \ge 0, \mu_{i} \ge 0, i = 1, 2, \cdots, N$ 构建Lagrange Function:
$\begin{aligned} \\ L(w,b,\xi,\alpha,\mu) &= \frac{1}{2} \| w \|^{2} + C \sum_{i=1}^{N} \xi_{i} + \sum_{i=1}^{N} \alpha_{i} (- y_{i} ( w \cdot x_{i} + b ) + 1 - \xi_{i} ) - \sum_{i=1}^{N} \mu_{i} \xi_{i} \tag{2} \end{aligned}$
其中， $\alpha = \left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{N} \right)^{T}$ 以及 $\mu = \left( \mu_{1}, \mu_{2}, \cdots, \mu_{N} \right)^{T}$ 为lagrange multiplier , 它们的每个分量都是非负数

2,转化为Lagrange Dual Problem

具体原理与KKT条件推导可看我上一篇博文:SVM之拉格朗日对偶问题与KKT条件推导
现在dual problem:
$\max_{\alpha,\mu} \min_{w,b,\xi} L(w, b,\xi,\alpha,\mu) \tag{3}$

3,先求内层的min

由于把 $\alpha, \mu$ 都看作常量，要求最小值就直接求偏导:
$\nabla_{w} L( w, b, \xi, \alpha, \mu) = w - \sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} = 0 \tag{4}$
$\nabla_{b} L \left( w, b, \xi, \alpha, \mu \right) = -\sum_{i=1}^{N} \alpha_{i} y_{i} = 0 \tag{5}$
$\nabla_{\xi_{i}} L \left( w, b, \xi, \alpha, \mu \right) = C - \alpha_{i} - \mu_{i} = 0 \tag{6}$

得:
$\sum_{i=1}^N \alpha_i y_i x_i \tag{7}$
$\sum_{i=1}^N \alpha_i y_i = 0 \tag{8}$
$\alpha_i - \mu_i = 0 \tag{9}$

把(7)-(9) 代入(2)可得(这里引入了kernel function):
$\min_{w,b,\xi} L(w,b,\xi,\alpha,\mu) = -\frac{1}{2}\sum_{i=1}^N\sum_{i=1}^N \alpha_i \alpha_j y_i y_j K(x_i, x_j) + \sum_{i=1}^N \alpha_i \tag{10}$

4, 求解外层的max

对式(10)求解max:
$\max_{\alpha, \mu} -\frac{1}{2} \sum_{i=1}^N\sum_{i=1}^N \alpha_i \alpha_j y_i y_j K(x_i, x_j) + \sum_{i=1}^N \alpha_i \tag{11}$
$\quad \sum_{i=1}^N \alpha_i y_i = 0 \tag{12}$
$\quad C-\alpha_i - \mu_i = 0 \tag{13}$
$\quad \alpha_i \ge 0 \tag{14}$
$\quad \mu_i \ge 0 \tag{15}$
式(13)-(15) 可简化为:
$\le \alpha_i \le C \tag{16}$

5,最终形式:一个凸二次规划的对偶问题

$\min_\alpha \quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i, x_j) - \sum_{i=1}^N \alpha_i \tag{17}$
$\quad \sum_{i=1}^N \alpha_i y_i = 0 \tag{18}$
$\quad 0 \le \alpha_i \le C, \quad i=1,2,\cdots,N \tag{19}$
收敛的值需满足的KKT condition(求解SMO时有用):
$\nabla_{w} L( w^*, b^*, \xi^*, \alpha^*, \mu^*) = w^* - \sum_{i=1}^{N} \alpha_{i}^* y_{i} x_{i} = 0 \tag{20}$
$\nabla_{b} L( w^*, b^*, \xi^*, \alpha^*, \mu^*) = -\sum_{i=1}^{N} \alpha_{i}^* y_{i} = 0 \tag{21}$
$\nabla_{\xi_{i}} L( w^*, b^*, \xi^*, \alpha^*, \mu^*) = C - \alpha_{i}^* - \mu_{i}^* = 0 \tag{22}$
$\alpha_i^* \ge 0 \tag{23}$
$\xi_i^* +y_i(w^*\cdot x^*+b^*) \le 0 \tag{24}$
$\alpha_i^*(1 - \xi_i^* + y_i ( w^*\cdot x^*+b^*)) = 0 \tag{25}$
$\mu_i^* \ge 0 \tag{26}$
$\xi_i^* \le 0 \tag{27}$
$\mu_i^* \xi_i^* = 0 \tag{28}$
一共3个偏导为0 + 2*3个乘子与不等式约束间满足的条件 = 9个KKT 条件

二,切入正题:SMO算法完整推导

SMO算法，首先选择 $\alpha$ 的两个分量来求解式(19)的子问题，思路是不断迭代求解原问题的子问题来逼近原始问题的解, 具体怎么选取这两个分量待会儿再说

1, 选取两个 $\alpha$ 的分量,求解式(19)子问题，目的是获取对这两个分量进行更新的方法

$\begin{aligned} \min_{\alpha1, \alpha2} \quad W(\alpha_1,\alpha_2) = \frac{1}{2}\alpha_1^2K_{11} + \frac{1}{2}\alpha_2^2K_{22} + \alpha_1\alpha_2y_1y_2K_{12} \\ + \alpha_1y_1\sum_{i=3}^N\alpha_iy_iK_{1i} + \alpha_2y_2\sum_{i=3}^N\alpha_iy_iK_{2i} - \alpha_1 - \alpha_2 \tag{29} \end{aligned}$
$\quad \alpha_1y_1 + \alpha_2y_2 = -\sum_{i=3}^Ny_i\alpha_i = \varsigma \tag{30}$
$\quad \quad \; \; \, 0 \le \alpha_i \le C, \quad i=1,2 \tag{31}$

1.1 换元

有两个变量，那先通过式(30)的变形式 $\alpha_1 = (\varsigma - \alpha_2y_2)y_1$ 代入式(29)换为只包含 $\alpha_2$ 的式子:
$\begin{aligned} \min_{\alpha_2} W(\alpha_2) = \frac{1}{2}(\varsigma-\alpha_2y_2)^2K_{11} + \frac{1}{2}\alpha_2^2K_{22}+(\varsigma-\alpha_2y_2)\alpha_2y_2K_{12}+ \\ (\varsigma - \alpha_2y_2)\sum_{i=3}^N\alpha_iy_iK_{1i}+\alpha_2y_2\sum_{i=3}^N\alpha_iy_iK_{2i} - (\varsigma - \alpha_2y_2)y_1 - \alpha_2 \tag{32} \end{aligned}$

1.2 求极值点

明显地，对 $\alpha_2$ 求偏导并令其为0:
$\frac{\partial W}{\alpha_2} = -\varsigma y_2 K_{11} + K_{11}\alpha_2 + K_{22}\alpha_2 + \varsigma y_2K_{12} - 2K_{12}\alpha_2 - y_2 \sum_{i=3}^N\alpha_iy_iK_{1i} +y_2\sum_{i=3}^N\alpha_iy_iK_{2i} + y_1y_2 - 1 \tag{33}$
$(K_{11}+K_{22}-2K_{12})\alpha_2 + y_2(-\varsigma K_{11} + \varsigma K_{12} -\sum_{i=3}^N\alpha_iy_iK_{1i} + \sum_{i=3}^N\alpha_iy_iK_{2i} + y_1 - y_2) \tag{34}$
这里要设置一些方便的符号:
1, 模型对 $x$ 的预测值
$\sum_{i=1}^N\alpha_iy_iK(x_i, x) + b \tag{35}$
2, 预测值减去真实值
$E_i = g(x_i) - y_i = (\sum_{j=1}^N\alpha_jy_jK(x_j, x_i) + b) - y_i, \quad i=1,2 \tag{36}$
3,式(34)中比较难处理的那一坨
$v_i = \sum_{j=3}^N\alpha_jy_jK_{ij} = g(x_i) - \sum_{j=1}^2\alpha_jy_jK_{ij} - b, \quad i=1,2 \tag{37}$
$=E_i +y_i - \sum_{j=1}^2\alpha_jy_jK_{ij} - b, \quad i=1,2 \tag{38}$
还要注意 $\alpha_1y_1+\alpha_2y_2 = \sum_{i=1}^2\alpha_iy_i = \varsigma$
令式(34)为0, 并代入上面的符号:
$(K_{11}+K_{22}-2K_{12})\alpha_2^{new,unc} = y_2(\varsigma K_{11} - \varsigma K_{12} +\sum_{i=3}^N\alpha_iy_iK_{1i} - \sum_{i=3}^N\alpha_iy_iK_{2i} - y_1 + y_2) \tag{39}$
$y_2(\sum_{i=1}^2\alpha_iy_iK_{11} - \sum_{i=1}^2\alpha_iy_iK_{12} + v_1 - v_2 - y_1 + y_2) \tag{40}$
$y_2(\sum_{i=1}^2\alpha_iy_iK_{11} - \sum_{i=1}^2\alpha_iy_iK_{12} + E_1 + y_1 -\sum_{i=1}^2\alpha_iy_iK_{1i} - b - E_2 - y_2 +\sum_{i=1}^2\alpha_iy_iK_{2i} + b - y_1 + y_2 ) \tag{41}$
$y_2(E_1 - E_2 + \alpha_2y_2K_{11} - 2\alpha_2y_2K_{12}+\alpha_2y_2K_{22}) \tag{42}$
$(K_{11} - 2K_{12} + K_{22})\alpha_2 + y_2(E_1- E_2) \tag{43}$

1.3 获取 $\alpha_2^{new,unc}$ 的迭代方式

由式(43)可得:
$\alpha_2^{new, unc} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{K_{11}-2K_{12}+K_{22}} \tag{44}$

1.4 根据 $\alpha_2$ 的定义域裁剪得到 $\alpha_2^{new}$

上式左边有unc, 意味着没有进行cut,现在我们讨论下 $\alpha_2$ 的取值范围:
关于 $\alpha_1, \alpha_2$ 的约束条件一共就式(30),(31)两个式子
那么我们根据 $y_1, y_2$ 进行分类讨论:

$y_1=y_2$
根据式(30),设 $\alpha_1 +\alpha_2 = k$
根据式(31),可得:
${\left\{ \begin{aligned} 0 & \le \alpha_2 \le C \\ 0 & \le k-\alpha_2 \le C \end{aligned} \right.} \Rightarrow {\left\{ \begin{aligned} & 0 \le \alpha_2 \le C \\ & k-C \le \alpha_2 \le k \end{aligned} \right.} \Rightarrow {\left\{ \begin{aligned} & 0 \le \alpha_2 \le C \\ & \alpha_1^{old} +\alpha_2^{old}-C \le \alpha_2 \le \alpha_1^{old} +\alpha_2^{old} \end{aligned} \right.}$
设 $\alpha_2$ 上界为 $H$ ,下界为 $L$ , 则有:
$\max(0, \alpha_1^{old} +\alpha_2^{old}-C) \tag{45}$
$\min(C, \alpha_1^{old} +\alpha_2^{old}) \tag{46}$
$y_1 \neq y_2$
根据式(30),设 $\alpha_1 - \alpha_2 = k$
根据式(31),可得:
${\left\{ \begin{aligned} 0 & \le \alpha_2 \le C \\ 0 & \le \alpha_2+k \le C \end{aligned} \right.} \Rightarrow {\left\{ \begin{aligned} 0 & \le \alpha_2 \le C \\ -k & \le \alpha_2 \le C-k \end{aligned} \right.} \Rightarrow {\left\{ \begin{aligned} 0 & \le \alpha_2 \le C \\ \alpha_2^{old} - \alpha_1^{old} & \le \alpha_2 \le C+\alpha_2^{old} - \alpha_1^{old} \end{aligned} \right.}$
可得新的上下界:
$\max(0, \alpha_2^{old} - \alpha_1^{old}) \tag{47}$
$\min(C, C+\alpha_2^{old} - \alpha_1^{old}) \tag{48}$
裁剪方法:
$\alpha_2^{new}={\left\{ \begin{aligned} &H \quad \quad, & \alpha_2^{new,unc} > H \\ &\alpha_2^{new,unc}, &L \le \alpha_2^{new,unc} \le C \\ &L \quad \quad, & \alpha_2^{new,unc} < L \end{aligned} \right.}$

1.5 根据约束条件得到 $\alpha_1^{new}$

根据式(30)可得:
$\alpha_1^{old}y_1 + \alpha_2^{old}y_2 = \alpha_1^{new}y_1 + \alpha_2^{new}y_2 \tag{49}$
根据上式，有:
$\alpha_1^{new} = (\alpha_1^{old}y_1 + \alpha_2^{old}y_2-\alpha_2^{new}y_2)y_1 \tag{50}$
$\alpha_1^{old} + (\alpha_2^{old}-\alpha_2^{new})y_1y_2 \tag{51}$

2, 通过对这两个 $\alpha$ 分量的更新,获取其它变量的更新

2.1 计算阈值b

原理,通过支持向量,即正好在间隔边界的点来进行计算(此时 $\alpha_i < C, y_ig(x_i) = 1$ ):
$y_i -\sum_{j=1}^N\alpha_jy_jK_{ij} \tag{52}$
如果 $\alpha_1$ 满足此条件,则
$b_1^{new} = y_1 - \sum_{i=3}^N\alpha_iy_iK_{1i} - \alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{12} \tag{53}$
上面的公式有一部分可以用 $E_1$ 进行替换:
$E_1 = g(x_1) - y_1 = \sum_{i=3}^N\alpha_iy_iK_{1i} + \alpha_1^{old}y_1K_{11} +\alpha_2^{old}y_2K_{21} + b^{old} - y_1 \tag{54}$
结合式(53)与式(54),将 $E_1$ 引入式(55)可得:
$b_1^{new} = -E_1+y_1K_{11}(\alpha_1^{old}-\alpha_1^{new}) + y_2K_{12}(\alpha_2^{old}-\alpha_2^{new}) + b^{old} \tag{55}$
每次计算的时候，存下 $E_i$ 可以极大的方便计算
同理，如果 $\alpha_2^{new} <C$ , 则:
$b_2^{new} = -E_2 + y_1K_{12}(\alpha_1^{old}-\alpha_1^{new}) + y_2K_{22}(\alpha_2^{old}-\alpha_2^{new}) +b^{old} \tag{56}$
下面讨论 $b^{new}$ 的最终取值:

若 $0<\alpha_1<C$ , $0<\alpha_2<C$ :
$b^{new} = b_1^{new} = b_2^{new}$ (此时 $x_1$ 与 $x_2$ 都在间隔边界上)
若只有一个 $0<\alpha_i<C, \quad i \in \{1,2\}$
$b^{new} = b_i^{new}$
若 $\alpha_1,\alpha_2 \in \{0,C\}$
$b^{new} = \frac{1}{2}(b_1^{new}+b_2^{new})$ , (若 $\alpha_i=0$ 说明 $x_i$ 不是支持向量， $y_ig(x_i) \ge 1$ , $x_i$ 在正确分类的间隔一侧, $\alpha_i=C$ 说明 $y_ig(x_i) \le 1$ , 这些都可以从式(22)-式(30)的KKT条件推出，下面还会推导)

2.2 更新 $E_i$ ,方便下一次的 $b$ 计算

$E_i = \sum_{s}\alpha_jy_jK_{ij} - y_i \tag{57}$
其中 $s$ 是所有>0的 $\alpha_j$ , 即所有支持向量

3 $\alpha$ 选取策略

3.1 通过满足KKT条件与否选择 $\alpha_1$

因为收敛后的最优解是满足KKT条件的，所以第一次选择最不满足KKT条件的 $\alpha$ :
从式(20)-(28)可得:

$\alpha_i = 0$
(1), 根据 $C-\alpha_i^*-u_i^*=0$ 可得 $u_i^*=C > 0$
(2), 根据 $u_i^*\xi_i^* = 0$ 可得 $\xi_i^*=0$
(3), 根据 $y_i(w^*x_i+b^*) \ge 1 - \xi_i^*$ 可得 $y_i(w^*x_i +b^*) \ge 1$
(4), 综上， $\alpha_i = 0 \Leftrightarrow y_ig(x_i) \ge 1 \tag{58}$
$\alpha_i <C$
(1), 根据 $C-\alpha_i^*-u_i^*=0$ 可得 $u_i^*> 0$
(2), 根据 $u_i^*\xi_i^* = 0$ 可得 $\xi_i^*=0$
(3), 根据 $\alpha_i^*(y_i(w^*x_i+b^*)-1+\xi^*) = 0$ 及上面一条可得 $y_i(w^*x_i+b^*) - 1=0$
(4), 综上, $\alpha_i < C \Leftrightarrow y_ig(x_i) = 1 \tag{59}$
$\alpha_i = C$
(1). 根据 $C-\alpha_i^*-u_i^*=0$ 可得 $u_i^*= 0$
(2). 根据 $u_i^* = 0$ 及 $u_i^*\xi_i^*=0$ , $\xi_i^* \ge 0$ 可得 $\xi_i^* \ge 0$
(3). 根据 $\alpha_i^*(y_i(w^*x_i+b^*)-1+\xi_i^*) = 0$ 及 $\alpha_i=C>0$ 可得
$y_i(w^*x_i + b^*) - 1 +\xi_i^* = 0$
(4). 根据推论(2)及推论(3)可得: $y_i(w^*x_i+b^*) \le 1$
(5). 综上, $\alpha_i=C \Leftrightarrow y_ig(x_i) \le 1 \tag{60}$

这里要说明一下，计算机里常有浮点数精度的问题，直接用"=="往往会得出错误的结果,上面的KKT条件检查全部都应该在 $\epsilon$ 的精度下进行
选择算法：首先选取 $\alpha_i < C$ 的支持向量样本点,检查是否满足式(61)
如果不满足，则选择它
如果都满足,遍历整个训练集查看它们是否满足KKT条件, 如果都满足则满足停机条件

3.2 根据极大化 $\alpha_1$ 的变化来寻找 $\alpha_2$

根据式(44), $\alpha_1$ 与 $E_1 - E_2$ 呈线性关系,所以对 $\alpha_2$ 的选取策略:
遍历找到使 $E_1 - E_2|$ 最大的 $E_2$ ,其对应的 $\alpha$ 分量即为 $\alpha_2$
这里可以看出, $E$ 在更新 $\alpha_2$ , 阈值 $b$ 与寻找 $\alpha_2$ 的过程中发挥了极大的作用

可是这个简单策略有时会找不到令目标函数式(17)有足够下降的点，怎么办呢?只能依次遍历在间隔边界上的点，看它们中是否有点能使目标函数有足够下降

如果还是找不到呢?那只能放弃 $\alpha_i$ 重新选择了

所以到这里我发现SMO算法有回溯的情况

4 简单总结整个SMO算法的流程

1, 根据是否满足KKT条件寻找一个 $\alpha$ 的分量作为 $\alpha_1$ , 满足停机条件则算法结束
2, 根据极大化 $\alpha_1$ 的变化寻找 $\alpha_2$ , 这里可能会有回溯情况，重回第1步
3, 根据 $E_1, E_2$ 等，即式(44)得到 $\alpha_2^{new, unc}$
4, 对 $\alpha_2^{new, unc}$ 进行定义域剪切得到 $\alpha_2^{new}$
5, 紧接着根据式(51)得到 $\alpha_1^{new}$
6, 根据(55),(56) 通过 $E_i$ 获取 $b_1^{new}, b_2^{new}$
7, 根据 $\alpha_1, \alpha_2$ 对 $0$ 与 $C$ 的大小关系获取 $b^{new}$
8, 更新 $E_1, E_2$ ,为下一轮计算做准备

循环以上步骤直到达到指定的轮次数或满足停机条件

三. 用python实现核心步骤并进行代码片段讲解

大致讲解流程根据上面的算法流程来

1. 检查是否满足KKT条件

# check if the alpha[i] satisfy the KKT condition:
def _satisfy_KKT_(self, i):
    tmp = self.Y[i]*self._g_(i)
    # 式(60)
    if abs(self.alpha[i]) < self.epsilon: # epsilon is the precision for checking if two var equal
        return tmp >= 1
    # 式(62)
    elif abs(self.alpha[i] - self.C) < self.epsilon:
        return tmp <= 1
    # 式(61)
    else:
        return abs(tmp - 1) < self.epsilon

2. 寻找 $\alpha_2$

imax = (0, 0)# store |E1-E2|, index of alpha2
E1 = self.E[i]
alpha_1_index.remove(i)
# 寻找使|E1 - E2|最大的alpha_2
for j in alpha_1_index:
    E2 = self.E[j]
    if abs(E1 - E2) > imax[0]:
        imax = (abs(E1 - E2), j)

return i, imax[1]

3. 获取 $\alpha_2^{new,unc}$ 并进行剪切获得 $\alpha_2^{new}$ , 再获取 $\alpha_1^{new}$

E1, E2 = self.E[i1], self.E[i2]
# eta即式(46)的分母
eta = self._K_(i1, i1) + self._K_(i2, i2) - 2*self._K_(i1, i2) # 7.107
# 式(46)
alpha2_new_unc = self.alpha[i2] + self.Y[i2] * (E1-E2) / eta # 7.106
# 剪切
if self.Y[i1] == self.Y[i2]:
    L = max(0, self.alpha[i2] + self.alpha[i1] - self.C)
    H = min(self.C, self.alpha[i2] + self.alpha[i1])
else:
    L = max(0, self.alpha[i2] - self.alpha[i1])
    H = min(self.C, self.C + self.alpha[i2] - self.alpha[i1])

alpha2_new = H if alpha2_new_unc > H else L if alpha2_new_unc < L else alpha2_new_unc # 7.108
# 式（53）
alpha1_new = self.alpha[i1] + self.Y[i1]*self.Y[i2]*(self.alpha[i2] - alpha2_new)

4.获取新的阈值 $b^{new}$

# 式(57)
b1_new = -E1 - self.Y[i1]*self._K_(i1,i1)*(alpha1_new - self.alpha[i1]) \
         - self.Y[i2]*self._K_(i2,i1)*(alpha2_new - self.alpha[i2]) + self.b
# 式(58)
b2_new = -E2 - self.Y[i1]*self._K_(i1,i2)*(alpha1_new - self.alpha[i1]) \
         - self.Y[i2]*self._K_(i2,i2)*(alpha2_new - self.alpha[i2]) + self.b

# 式(58)-式(59)之间对b的取值讨论
if alpha1_new > 0 and alpha1_new < self.C:
    self.b = b1_new
elif alpha2_new > 0 and alpha2_new < self.C:
    self.b = b2_new
else:
    self.b = (b1_new + b2_new) / 2

5. 更新 $E_1, E_2$

# 式(37), 对x_i的预测值
def _g_(self, i):
    K = np.array([self._K_(j, i) for j in range(self.m)])
    return np.dot(self.alpha * self.Y, K) + self.b
# 式(38), 对x_i的预测值与y_i的差值
def _E_(self, i):
    return self._g_(i) - self.Y[i]

# 更新alpha_1, alpha_2对应的E_1, E_2
self.E[i1] = self._E_(i1)
self.E[i2] = self._E_(i2)