支持向量机笔记-软间隔支持向量机

最新推荐文章于 2025-05-26 11:22:22 发布

原创最新推荐文章于 2025-05-26 11:22:22 发布 · 1.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #SVM #支持向量机 #机器学习 #软间隔

machine learning 同时被 2 个专栏收录

8 篇文章

订阅专栏

algorithm

8 篇文章

订阅专栏

本文介绍了软间隔支持向量机的基本概念、优化问题及其算法原理。针对近似线性可分的数据集，通过引入松弛变量实现软间隔最大化，平衡模型复杂度与分类错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

支持向量机概述
- 符号定义
- 硬间隔支持向量机
软间隔支持向量机
说明

支持向量机概述

支持向量机的基础是定义在特征空间上的间隔最大的线性分类器。

当训练数据线性可分时，通过硬间隔最大化学习一个线性分类器；当训练数据近似线性可分时，通过软间隔最大化学习一个线性分类器；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

符号定义

考虑二分类问题。

训练数据集：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
其中，

xi∈Rn,yi∈{+1,−1},i=1,2,...,N $x_i\in R^n,y_i\in \{+1,-1\},i=1,2,...,N$ ，假设训练集是线性可分的。

超平面公式：

w \cdot x + b = 0

$w\cdot x+b=0$
其中，

w $w$ 是法向量，

b $b$ 是截距。

硬间隔支持向量机

此文假设读者已经了解硬间隔支持向量机，如不了解，可参考支持向量机笔记-硬间隔支持向量机。

软间隔支持向量机

当训练样本近似线性可分时，即大部分样本线性可分，少数样本线性不可分时，就用到软间隔支持向量机。

对应的最优化问题

回顾硬间隔支持向量机的优化问题

硬间隔支持向量机对应的最优化问题最终形式为：

min w, b 1 2 | | w | | 2

$\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2$

s . t . y i (w \cdot x i + b) - 1 ⩾ 0, i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)-1\geqslant0,\qquad i=1,2,...,N$
如不了解来由，可参考支持向量机笔记-硬间隔支持向量机。

改进以获得软间隔支持向量机优化问题

上面两个式子中，限制条件 $y_i\left(w\cdot x_i+b \right)-1\geqslant0$ 中的 $y_i\left(w\cdot x_i+b \right)$ 含义为样本 $(x_i, y_i)$ 到超平面 $(w,b)$ 的函数距离，此限制条件的意思是要求所有样本点到超平面的函数距离都得大于等于1；

这在存在少量线性不可分样本的情况下做不到，因此作出改进。

既然有样本做不到，那就放宽要求，每个样本 $(x_i, y_i)$ 加一个松弛变量 $\xi_i\geqslant0$ ，要求所有样本不必大于等于 $1$ ，只需要大于等于 $1-\xi_i$ 。

每个样本都有一个松弛变量，那么这些松弛变量应该取什么值？这些值并非人工指定的，而是需要求解的，那么必须在代价函数中对这些变量加以限制，限制方式是：

min w, b 1 2 | | w | | 2 + C \sum i = 1 N ξ i

$\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$
其中

C>0 $C>0$ 被称为惩罚参数，

C $C$ 越大对错分类样本的惩罚越大，惩罚越大错分样本数量倾向于减少。

在上面式子中， $\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2$ 可以使得超平面和训练集的“间隔”（这个间隔的概念请参考支持向量机笔记-硬间隔支持向量机中的几何间隔）尽可能大； $C\sum_{i=1}^N\xi_i$ 可以使得错分的样本数尽可能少。

优化问题最终形式

min w, b 1 2 | | w | | 2 + C \sum i = 1 N ξ i

$\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$

s . t . y i (w \cdot x i + b) ⩾ 1 - ξ i, i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)\geqslant1-\xi_i,\qquad i=1,2,...,N$

s . t . ξ i ⩾ 0, i = 1, 2, . . ., N

$s.t.\text{ }\xi_i\geqslant0,\qquad i=1,2,...,N$

学习超平面的算法

分3步：
1. 选定惩罚参数 $C$ ，构造并求解：

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i

$\min\limits_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$

s . t . \sum i = 1 N α i y i = 0

$s.t.\quad\sum_{i=1}^N\alpha_i y_i=0$

0 ⩽ α i ⩽ C, i = 1, 2, . . ., N

$0\leqslant\alpha_i\leqslant C,\quad i=1,2,...,N$
求得最优解

α∗=(α∗1,α∗2,...,α∗N)T $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 。
2. 用以下公式计算

w * = \sum i = 1 N α * i y i x i

$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
选择

α∗ $\alpha^*$ 的一个正分量

0<α∗j<C $0<\alpha_j^*<C$ ，找到

yj $y_j$

b * = y j - \sum i = 1 N α * i y i (x i \cdot x j)

$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$
3. 获得超平面方程以及决策函数

w * \cdot x + b * = 0

$w^*\cdot x+b^*=0$
分类决策函数：

f (x) = s i g n (w * \cdot x + b *)

$f(x)=sign(w^*\cdot x+b^*)$

算法的原理

首先，原始问题是：

min w, b 1 2 | | w | | 2 + C \sum i = 1 N ξ i

$\min\limits_{w,b}\text{ }\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$

s . t . y i (w \cdot x i + b) ⩾ 1 - ξ i, i = 1, 2, . . ., N

$s.t.\text{ }y_i\left(w\cdot x_i+b \right)\geqslant1-\xi_i,\qquad i=1,2,...,N$

s . t . ξ i ⩾ 0, i = 1, 2, . . ., N

$s.t.\text{ }\xi_i\geqslant0,\qquad i=1,2,...,N$
这是个约束优化问题，可以使用拉格朗日对偶性来求解。

首先构建拉格朗日函数：

L (w, b, ξ, α, μ) = 1 2 | | w | | 2 + C \sum i = 1 N ξ i - \sum i = 1 N α i (y i (w \cdot x i + b) - 1 + ξ i) - \sum i = 1 N μ i ξ i

$L(w,b,\xi,\alpha,\mu)=\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i(y_i(w\cdot x_i+b)-1+\xi_i)-\sum_{i=1}^N\mu_i\xi_i$
其中，

αi⩾0,μi⩾0 $\alpha_i\geqslant0,\mu_i\geqslant0$ 。

原始问题的对偶问题是拉格朗日函数的极大极小问题。

可以通过求解这个问题来获得原始问题的解：

max α min w, b, ξ L (w, b, ξ, α, μ)

$\max\limits_{\alpha}\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$

求 $\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$
将 $L(w,b,\alpha)$ 分别对 $w,b,\xi$ 求偏导并令其等于0。
$▽ w L (w, b, ξ, α, μ) = w - \sum i = 1 N α i y i x i = 0$ $\triangledown_wL(w,b,\xi,\alpha,\mu)=w-\sum_{i=1}^N\alpha_iy_ix_i=0$

▽ b L (w, b, ξ, α, μ) = - \sum i = 1 N α i y i = 0

$\triangledown_bL(w,b,\xi,\alpha,\mu)=-\sum_{i=1}^N\alpha_iy_i=0$

▽ ξ L (w, b, ξ, α, μ) = C - α i - μ i = 0

$\triangledown_\xi L(w,b,\xi,\alpha,\mu)=C-\alpha_i-\mu_i=0$
得：

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^N\alpha_iy_ix_i$

\sum i = 1 N α i y i = 0

$\sum_{i=1}^N\alpha_iy_i=0$

C - α i - μ i = 0

$C-\alpha_i-\mu_i=0$

将它们代入拉格朗日函数 $L(w,b,\xi,\alpha,\mu)$ ，得：

min w, b, ξ L (w, b, ξ, α, μ) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

$\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$
2. 求

maxαminw,b,ξL(w,b,ξ,α,μ) $\max\limits_{\alpha}\min\limits_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$

max α min w, b L (w, b, α) = max α ⎛ ⎝ - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i ⎞ ⎠

$\max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha)=\max\limits_{\alpha}\left(-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\right)$