SVM 中的mathematics —— Basic SVM 和 Soft Margin SVM

最新推荐文章于 2025-02-07 15:48:20 发布

原创最新推荐文章于 2025-02-07 15:48:20 发布 · 395 阅读

2 ·

CC 4.0 BY-SA版权

《Hand on machine learni 专栏收录该内容

14 篇文章

订阅专栏

本文深入讲解了支持向量机(SVM)的基本原理及软间隔SVM的数学推导过程，包括线性和二次惩罚项的不同应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. Basic SVM

训练样本集： $\{(x_i, y_i), i=1,2,\cdots, m=m^++m^-\}$ ，其中， $x_i\in R^{n},y_i\in\{+1,-1\}$
目标 1)：找到一个超平面 $\{x|w^Tx+b=0\}$ 对训练样本集进行分割。使得不同类别间的间隔尽可能大。
分类方程：
$H (x) = w T x + b$ $H(x) = w^Tx + b$

在任一点 $x$ 处，若 $H(x) > 0$ ，则 $x$ 属于第 I 类；若 $H(x) < 0$ ，则 $x$ 属于第 II 类。

1) 建模

假设分割两类样本点的超平面P的方程为 $\{x|w^Tx+b=0\}$ ，则总可以通过调节系数（两端同乘以一个系数）使得两类中距离超平面最近点分别位于平面P1: $\{x|w^Tx+b=+1\}$ 和平面P2: $\{x|w^Tx+b=-1\}$ 上。同时，P1和P2间的距离为： $\frac{2}{\Vert w\Vert_2}$

关于P1与P2间的距离为 $\frac{2}{\Vert w\Vert_2}$ 的证明：

$w$ 的方向为平面P的法向量方向（即与平面垂直）。对于平面上任一点 $x$ ，有： $w^Tx+b=0$ ，即 $\Vert w\Vert\cdot\Vert x\Vert\cdot \cos\theta=0$ ，其中， $\theta$ 为 $w$ 和 $x$ 的夹角。因此，有 $\Vert x\Vert\cdot \cos\theta = \frac{b}{\Vert w\Vert}$ 。其中， $\Vert x\Vert\cdot \cos\theta$ 为点 $x$ 在 $w$ 方向的投影，即为平面P到原点的距离。而P1与P2间的距离可以由P2到原点的距离减去P1到原点的距离求得，因此P1与P2见的距离为 $\frac{2}{\Vert w\Vert_2}$

以上，我们便得到了如下的优化问题：

max w, b s . t . 2 ‖ w ‖ 2 w T x i + b \geq 1, w h e r e y i = + 1, i = 1, 2, \dots, m + w T x j + b \leq - 1, w h e r e y j = - 1, j = 1, 2, \dots, m - (1) (2) (3)

$\begin{align} \max_{w,b}\ & \frac{2}{\Vert w\Vert_2}\\ s.t.\ & w^Tx_i+b\ge 1, where\ y_i=+1, i=1,2,\cdots,m^+\\ & w^Tx_j+b\le -1, where\ y_j=-1, j=1,2,\cdots,m^- \end{align}$

为了便于求解，该问题可以转换为：

【式-0】优化问题表达式

min w, b s . t . 1 2 w T w y i (w T x i + b) \geq 1, i = 1, 2, \dots, m (4) (5)

$\begin{align} \min_{w,b}\ & \frac{1}{2}w^Tw\\ s.t.\ & y_i(w^Tx_i+b)\ge 1,i=1,2,\cdots,m \end{align}$

由于上述优化问题为凸优化问题，因此可以通过求解对偶问题来求解上述问题。

2) Lagrange乘子法求解对偶问题：

【式-1】

L (w, b, α) = 1 2 w T w - \sum i = 1 m α i [y i (w T x i + b) - 1]

$L(w,b,\alpha)=\frac{1}{2}w^Tw-\sum_{i=1}^m\alpha_i\left[ y_i(w^Tx_i+b)-1 \right]$
上式中，

αiαi $\alpha_i$ 为对偶变量。
原问题的对偶问题为

max α inf w, b L (w, b, α)

$\max_{\alpha} \inf_{w,b} L(w,b,\alpha)$
因此，由KKT条件：

【式-2】

\partial L ( w , b , α ) \partial w = 0 \partial L ( w , b , α ) \partial b = 0 \Rightarrow w = \sum i = 1 m α i y i x i \Rightarrow \sum i = 1 m α i y i = 0 (6) (7)

$\begin{align} \frac{\partial L(w,b,\alpha)}{\partial w} = 0 & \Rightarrow w=\sum_{i=1}^m\alpha_iy_ix_i\\ \frac{\partial L(w,b,\alpha)}{\partial b} = 0 & \Rightarrow \sum_{i=1}^m\alpha_iy_i = 0 \end{align}$
将 式-2 中的结果代入 式-1，有：

L (w, b, α) = \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α i α j x T i x j

$L(w,b,\alpha) = \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^my_iy_j\alpha_i\alpha_jx_i^Tx_j$

因此，对偶问题可以表达为：

【式-3】对偶问题

max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α i α j x T i x j α i \geq 0, i = 1, 2, \cdot, m \sum i = 1 m α i y i = 0 (8) (9) (10)

$\begin{align} \max_{\alpha} & \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^my_iy_j\alpha_i\alpha_jx_i^Tx_j \\ s.t.\ & \alpha_i\ge 0 ,i=1,2,\cdot,m\\ & \sum_{i=1}^m\alpha_iy_i=0 \end{align}$

假设原问题和对偶问题的最优解为 $w^*,b^*,\alpha^*$ ，由互补松弛条件：

α * i [y i (x T i w * + b *) - 1] = 0

$\alpha_i^*\left[ y_i(x_i^Tw^*+b^*)-1 \right] = 0$

因此，与 $alpha_i^*>0$ 对应的 $x_i$ 即为支持向量：满足$y_i(x_i^Tw^+b^) = \pm 1。由此可以解得所有变量：

w * = \sum i = 1 m α * i y i x i

$w^*=\sum_{i=1}^m\alpha_i^*y_ix_i$

b * = y i - (w *) T x i

$b^* = y_i-(w^*)^Tx_i$
为了提高模型的稳定性，

b∗b∗ $b^*$ 通常由下式求得：

b * = 1 | S | \sum i \in S [y i - (w *) T x i]

$b^* = \frac{1}{|S|}\sum_{i\in S}\left[ y_i-(w^*)^Tx_i \right]$
其中，

SS $S$ 为支持向量构成的集合。

对于任一新样本 $z$ ，可以通过下式给出其类别：

s i g n [(w *) z + b *] = s i g n (\sum i = 1 m α * i y i x T i z + b *)

$sign\left[ (w^*)^z+b^* \right] = sign\left( \sum_{i=1}^m\alpha_i^*y_ix_i^Tz+b^* \right)$

2. Soft Margin SVM

1) 线性惩罚项

【式-4】优化问题表达式

min w, b s . t . 1 2 w T w + C \sum i = 1 m ξ i y i (w T x i + b) \geq 1 - ξ i, i = 1, 2, \dots, m ξ i \geq 0, i = 1, 2, \dots, m (11) (12) (13)

$\begin{align} \min_{w,b}\ & \frac{1}{2}w^Tw + C\sum_{i=1}^m\xi_i \\ s.t.\ & y_i(w^Tx_i+b)\ge 1-\xi_i,i=1,2,\cdots,m \\ & \xi_i \ge 0,i=1,2,\cdots,m \end{align}$

【式-5】对偶问题表达式

max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α i α j x T i x j 0 \leq α i \leq C, i = 1, 2, \cdot, m \sum i = 1 m α i y i = 0 (14) (15) (16)

$\begin{align} \max_{\alpha} & \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^my_iy_j\alpha_i\alpha_jx_i^Tx_j \\ s.t.\ & 0 \le \alpha_i \le C ,i=1,2,\cdot,m\\ & \sum_{i=1}^m\alpha_i y_i=0 \end{align}$

【式-6】互补松弛条件

α * i [y i (x T i w * + b *) - 1 + ξ i] = 0

$\alpha_i^*\left[ y_i(x_i^Tw^*+b^*)-1+\xi_i \right] = 0$
因此，支持向量是在分类超平面margin以内的所有点。

注意，由 式-6， $b^* = y_i-y_i\xi_i-(w^*)^Tx_i$ ，然而由于通过求解对偶问题并不能得到 $\xi_i$ 的最优值，因此依照 $xi_i=0$ 计算即可，即

b * = 1 | S | \sum i \in S [y i - (w *) T x i]

$b^* = \frac{1}{|S|}\sum_{i\in S}\left[ y_i-(w^*)^Tx_i \right]$

对新样本的判别函数与 basic SVM相同，即：

s i g n [(w *) z + b *] = s i g n (\sum i = 1 m α * i y i x T i z + b *)

$sign\left[ (w^*)^z+b^* \right] = sign\left( \sum_{i=1}^m\alpha_i^*y_ix_i^Tz+b^* \right)$

2) 二次惩罚项

【式-7】优化问题表达式

min w, b s . t . 1 2 w T w + C \sum i = 1 m ξ 2 i y i (w T x i + b) \geq 1 - ξ i, i = 1, 2, \dots, m ξ i \geq 0, i = 1, 2, \dots, m (17) (18) (19)

$\begin{align} \min_{w,b}\ & \frac{1}{2}w^Tw + C\sum_{i=1}^m\xi_i^2 \\ s.t.\ & y_i(w^Tx_i+b)\ge 1-\xi_i,i=1,2,\cdots,m \\ & \xi_i \ge 0,i=1,2,\cdots,m \end{align}$

【式-8】对偶问题表达式

max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α i α j x T i x j - 1 4 C \sum i = 1 m (α i + β i) 2 α i \geq 0, β i \geq 0, i = 1, 2, \cdot, m \sum i = 1 m α i y i = 0 (20) (21) (22)

$\begin{align} \max_{\alpha} & \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^my_iy_j\alpha_i\alpha_jx_i^Tx_j - \frac{1}{4C}\sum_{i=1}^m(\alpha_i+\beta_i)^2\\ s.t.\ & \alpha_i \ge 0, \beta_i \ge 0,i=1,2,\cdot,m\\ & \sum_{i=1}^m\alpha_i y_i=0 \end{align}$

显然， $\beta_i^* = 0$ 。因此对偶问题可以进一步写作：

max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m y i y j α i α j x T i x j - 1 4 C \sum i = 1 m α 2 i α i \geq 0, i = 1, 2, \cdot, m \sum i = 1 m α i y i = 0 (23) (24) (25)

$\begin{align} \max_{\alpha} & \sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^my_iy_j\alpha_i\alpha_jx_i^Tx_j - \frac{1}{4C}\sum_{i=1}^m\alpha_i^2\\ s.t.\ & \alpha_i \ge 0,i=1,2,\cdot,m\\ & \sum_{i=1}^m\alpha_i y_i=0 \end{align}$

【注意】

惩罚项可以是任意函数，但需要保证优化问题的凸性。与线性惩罚项相比，二次惩罚项对奇异点更敏感。