SVM

最新推荐文章于 2024-04-22 08:00:00 发布

原创最新推荐文章于 2024-04-22 08:00:00 发布 · 置顶 · 329 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了支持向量机（SVM），包括其间隔最大化原理、拉格朗日对偶性、KKT条件以及SVM的对偶算法。通过解决凸二次规划问题，SVM找到最优的分类超平面，实现数据的高效分类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性可分分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的，间隔最大化又称为硬间隔最大化。
求几何间隔最大的分离超平面等价于以下问题：
$\begin {aligned} &\max\limits_{w,b}\quad\gamma \\ &\\ &s.t.\quad y_i\left(\frac{w}{||w||}x_i+\frac{b}{||w||}\right) \ge \gamma,\quad i=1,2,...,N &\\ \end{aligned}$

利用函数间隔与几何间隔之间的关系，将问题改写为：
$\begin {aligned} &\max\limits_{w,b}\quad\frac{\hat\gamma}{||w||} \\ &\\ &s.t.\quad y_i(w^Tx_i+b) \ge \hat\gamma,\quad i=1,2,...,N \end{aligned}$

函数间隔的取值并不影响最优化问题的求解，因此可以将 $\hat \gamma = 1$ 代入上面的最优化问题，同时最大化 $\frac{1}{||w||}$ 与最小化 $\frac{1}{2}||w||^2$ 是等价的，则有：
$\begin {aligned} &\max\limits_{w,b}\quad\frac{1}{2}||w||^2 \\ &\\ &s.t.\quad y_i(w^Tx_i+b)-1 \ge 0,\quad i=1,2,...,N \end{aligned}$

拉格朗日对偶性

在约束最优化问题中，常常利用拉格朗日对偶性（Lagrance duality）将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。
这样的优点是：

一是对偶问题更容易求解；
二是自然引入核函数，进而推广到非线性分类问题。

原始问题

假设 $f(x), c_i(x), h_j(x)$ 是定义在 $R^n$ 上的连续可微函数。考虑约束最优化问题
$\begin {aligned} &\min\limits_{x\in R^n}\quad f(x)\\ &\\ &s.t.\quad c_i(x) \le 0,\quad i=1,2,...,k &\\ &\qquad\ h_j(x) = 0, \quad j = 1,2,...,l \end{aligned}$

称此约束最优化问题为原始问题。

广义拉格朗日函数（generalized Lagrange function）

$L(x,\alpha,\beta) = f(x) + \sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_jh_j(x)$

其中， $\alpha_i,\beta_i$ 是拉格朗日乘子，特别要求 $\alpha_i \ge 0$ .

考虑x的函数：
$\theta_p(x) = \max\limits_{\alpha,\beta:\alpha_i\ge0}L(x,\alpha,\beta)$

假设给定某个 $x$ ,如果 $x$ 违反原始问题的约束条件，即存在某个 $i$ 使得 $c_i(x) > 0$ 或者存在某个 $j$ 使得 $h_j(x) =\not 0$ ，那么就有：
$\theta_p(x) = \max\limits_{\alpha,\beta:\alpha_i\ge0}[ f(x) + \sum_{i=1}^k\alpha_ic_i(x)+\sum_{j=1}^l\beta_jh_j(x)]=+\infty$

若存在某个 $i$ 使得 $c_i(x) > 0$ ，则可令 $\alpha_i \rightarrow+\infty$ ；
若存在某个 $j$ 使得 $h_j(x) =\not 0$ ，则可令 $\beta_jh_j(x)\rightarrow+\infty$ ；
而将其余各 $\alpha_i,\beta_j$ 均取为0。

结论为：

当 $x$ 违反原问题的约束条件时， $\theta_P(x) = +\infty$ ;
当 $x$ 满足原问题的约束条件时， $\theta_P(x) = f(x)$ .

在这个基础上再考虑极小化问题：
$\min\limits_x\theta_p(x) = \min\limits_x\max\limits_{\alpha,\beta:\alpha_i\ge0}L(x,\alpha,\beta)$

将原始最优化问题表示为广义拉格朗日函数的极小极大问题。

对偶问题

将广义拉格朗日函数的极大极小问题表示为约束最优化问题，称为原始问题的对偶问题：
$\begin {aligned} &\max\limits_{\alpha,\beta}\min_x L(x,\alpha,\beta) &\\ &s.t.\quad \alpha_i \ge 0,\quad i=1,2,...,k \end{aligned}$

原始问题和对偶问题的关系

满足Karush-Kuhn-Tucker(KKT)的条件下，原始问题和对偶问题的最优解相等，这时可以用解对偶问题替代解原始问题。

KKT条件

$x^*$ 和 $\alpha^*，\beta^*$ 分别是KKT是原始问题和对偶问题的解的充分必要条件是 $x^*，\alpha^*，\beta^*$ 满足KKT条件：
$\begin {aligned} &\bigtriangledown_xL(x^*,\alpha^*,\beta^*) = 0 &\\ &\\ &\alpha_i^*c_i(x^*) = 0, \quad i = 1,2,...,k &\\ &\\ &c_i(x^*) \le 0, \quad i = 1,2,...,k &\\ &\\ &\alpha_i^*\ge0,\quad i = 1,2,...,k &\\ &\\ &h_j(x^*)=0,\quad j = 1,2,...,l \end{aligned}$

其中， $\alpha_i^*\ge0,\quad i = 1,2,...,k$ 称为KKT的对偶互补条件。
由此条件可知：若 $\alpha_i^*>0，则c_i(x^*) = 0$ .

SVM的对偶算法

结合SVM的约束最优化问题和广义拉格朗日函数，可以得出：
$L(w,b,\alpha) = \frac{1}{2}||w||^2-\sum_{i=1}^Na_iy_i(w^Tx_i+b)+\sum_{i=1}^Na_i$

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\max_\alpha \min_{w,b}L(w,b,\alpha)$

为了达到对偶问题的解，先求 $L (w, b, a)$ 对w和b的极小，再求a的极大：
$\begin {aligned} &\bigtriangledown_w=w-\sum_{i=1}^Na_iy_ix_i=0 \\ &\\ &\bigtriangledown_b=-\sum_{i=1}^Na_iy_i=0 \end{aligned}$

得：
$\begin {aligned} &w=\sum_{i=1}^Na_iy_ix_i \\ &\sum_{i=1}^Na_iy_i=0 \end{aligned}$

将上式代入 $L (w, b, a)$ ，得：
$\begin {aligned} \min L(w,b,a)&=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^Na_iy_i((\sum_{j=1}^Na_jy_jx_j)\cdot x_i+b)+\sum_{j=1}^Na_i \\ &=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jy_iy_j(x_i\cdot x_j) + \sum_{j=1}^Na_i \end{aligned}$

再求对 $\alpha$ 的极大，即是对偶问题：
$\begin {aligned} &\max_{a}\quad-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jy_iy_j(x_i\cdot x_j) + \sum_{j=1}^Na_i \\ &s.t. \quad\sum_{i=1}^Na_iy_i = 0 \\ & \quad \quad \quad a_i \ge0,\quad i=1,2,...,N \end{aligned}$

等价于：
$\begin {aligned} &\min_{a}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^Na_ia_jy_iy_j(x_i\cdot x_j) - \sum_{j=1}^Na_i \\ &s.t. \quad\sum_{i=1}^Na_iy_i = 0 \\ & \quad \quad \quad a_i \ge0,\quad i=1,2,...,N \end{aligned}$

根据KKT条件：
$\begin {aligned} &\bigtriangledown_wL(w^*,b^*,\alpha^*) =w^*-\sum_{i=1}^Na_i^*y_ix_i = 0 &\\ &\\ &\bigtriangledown_bL(w^*,b^*,\alpha^*) =-\sum_{i=1}^Na_i^*y_i= 0 &\\ &\\ &\alpha_i^*(1-y_i(w^* \cdot x_i+b^*)) = 0, \quad i = 1,2,...,N &\\ &\\ &1-y_i(w^* \cdot x_i+b^*)\le 0, \quad i = 1,2,...,N &\\ &\\ &\alpha_i^*\ge0,\quad i = 1,2,...,N &\\ &\\ \end{aligned}$