SVM学习笔记

最新推荐文章于 2024-02-29 19:46:49 发布

BrightestSirius

最新推荐文章于 2024-02-29 19:46:49 发布

阅读量514

点赞数 2

分类专栏： ML 文章标签： svm kernel

本文链接：https://blog.youkuaiyun.com/u011284036/article/details/51152876

版权

ML 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了SVM（支持向量机）的核心思想，包括最大几何间隔、函数间隔与几何间隔的区别、线性可分与线性不可分情况下的支持向量机。还探讨了非线性支持向量机如何通过核函数实现高维映射，以及SMO（序列最小最优算法）在求解支持向量机对偶问题中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SVM个人理解

核心

SVM(Support Vector Machine)，二分类模型（可扩展为多分类模型, One-vs-rest or one-vs-one，也可做回归，参考SVR）。其要点如下:

Maximum geometric margin: 求空间中一超平面得到最大分类间隔
Hinge loss: 对支持向量施加的松弛惩罚
Kernel trick: 利用核函数非线性分类

概念

问题形式化：给定训练数据集
$T = (x 1, y 1), (x 2, y 2), \dots, (x N, y N)$ $T={(x_1, y_1), (x_2, y_2), \ldots, (x_N,y_N)}$
$\mbox{其中},x_i\in R^n,y_i\in \{+1,-1\},i=1,2,\ldots,N,x_i\mbox{是}\mbox{第}i\mbox{个特征向量}，y_i\mbox{是}x_i\mbox{的类标记}$
线性可分：假设训练集在输入空间线性可分，即存在一个超平面： $wx+b=0$ 能够完全划分正负实例点。
函数间隔 $γ^= min i = 1, \dots, N y i \cdot (w \cdot x i + b)$ $\hat{\gamma} = \min\limits_{i=1,\ldots,N} y_i\cdot (w\cdot x_i + b)$
几何间隔 $γ = min i = 1, \dots, N y i \cdot ( w \cdot x i + b ) ∥ w ∥ = γ ^ ∥ w ∥$ $\gamma = \min\limits_{i=1,\ldots,N} \frac{y_i\cdot (w\cdot x_i + b)}{\| w \|}=\frac{\hat{\gamma} }{\| w \|}$

线性可分支持向量机

对于线性可分的训练数据集，可以证明一定存在唯一的超平面能够最大化几何间隔。我们认为具有最大间隔的超平面具有最佳分类效果。
在这，个人对函数间隔与几何间隔这样理解。对同一个超平面，通过比例缩放 $w$ 和 $b$ ，函数间隔也会同比例变化。也就是说，对于一个成功划分正负实例的超平面（不一定最优），该平面固定，但是通过缩放 $w$ 和 $b$ ，可以使其function margin取任何正值。而我们的目标是找到具有最大margin的超平面。显然通过最大化函数间隔没有意义，因为任何成功划分训练实例的超平面都可以使函数间隔无限大。我们注意到，对一个超平面，函数间隔与 $\|w\|$ 的比值保持不变，也就是说几何间隔与超平面关联。所以，我们目标是最大化几何间隔，而且我们可以令函数间隔为1，然后最小化 $\|w\|$ 达到最大化几何间隔目的。

因此，线性可分支持向量机学习算法-最大硬间隔法

约束最优化问题
$min w, b 1 2 ∥ w ∥ 2 s.t. y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, \dots, N$ $\begin{array}{2} \min\limits_{w, b} \frac{1}{2}{\| w \|}^2 \\ \mbox{s.t. } y_i(w \cdot x_i+b)-1\ge 0, i = 1,2,\ldots, N\\ \end{array}$
求得最优解 $w^*$ 和 $b^*$
超平面 $w * \cdot x + b * = 0$ $w^*\cdot x + b^* = 0$
分类决策函数 $f (x) = sign (w * \cdot x + b *)$ $f(x)=\mbox{sign}(w^* \cdot x+ b^*)$

拉格朗日对偶问题

约束最优化问题
$min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s.t. \sum i = 1 N α i y i = 0 α i \geq 0, i = 1, 2, \dots, N$ $\begin{array}{3} \min\limits_{\alpha} \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) - \sum_{i=1}^N\alpha_i\\ \mbox{s.t. }\sum_{i=1}^N\alpha_iy_i = 0 \\ \qquad\alpha_i \ge 0, i =1, 2, \ldots, N\\ \end{array}$
求得 $α * = (α * 1, α * 2, \dots, α * N) T$ $\alpha^*=(\alpha_1^*, \alpha_2^*, \ldots, \alpha_N^*)^T$
求 $w i = \sum i = 1 N α * i y i x i$ $w^i = \sum_{i=1}^N\alpha_i^*y_ix_i$
选择一个正分量 $\alpha_j^*>0$ ,计算 $b * = y j - \sum i = 1 N α i y i (x i \cdot x j)$ $b^*=y_j-\sum_{i=1}^N\alpha_iy_i(x_i\cdot x_j)$
超平面 $w * \cdot x + b * = 0$ $w^*\cdot x + b^* = 0$
分类决策函数 $f (x) = sign (w * \cdot x + b *)$ $f(x)=\mbox{sign}(w^* \cdot x+ b^*)$

称 $\alpha_i^* \neq 0$ 的实例为支持向量。

线性支持向量机

对于线性不可分训练集，也就是说不存在一个超平面能够完全正确地把正负实例点分隔开来。我们通过对实例点的函数间隔小于1的情况施加一个松弛因子，并对此施加惩罚。并把惩罚与 $\|w\|$ 的加权和作为最优化目标，称之为最大化软间隔。

采取损失函数为hinge loss

L (y i (w \cdot x i + b)) = m a x (1 - y i (w \cdot x i + b), 0) = ζ i

$L(y_i(w\cdot x_i+b))=max(1-y_i(w\cdot x_i+b), 0)=\zeta_i$
因此，线性可分支持向量机学习算法- 最大软间隔法

约束最优化问题
$min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 N ζ i s.t. y i (w \cdot x i + b) \geq 1 - ζ i, i = 1, 2, \dots, N ζ i \geq 0, i = 1, 2, \dots, N$ $\begin{array}{3} \min\limits_{w, b} \frac{1}{2}{\| w \|}^2 + C\sum_{i=1}^N\zeta_i\\\ \mbox{s.t. } y_i(w\cdot x_i+b)\ge 1- \zeta_i, i = 1,2,\ldots, N\\ \qquad\zeta_i\ge 0, i = 1,2,\ldots, N\\ \end{array}$
求得最优解 $w^*$ 和 $b^*$
超平面 $w * \cdot x + b * = 0$ $w^*\cdot x + b^* = 0$
分类决策函数 $f (x) = sign (w * \cdot x + b *)$ $f(x)=\mbox{sign}(w^* \cdot x+ b^*)$

拉格朗日对偶问题

约束最优化问题
$min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s.t. \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, \dots, N$ $\begin{array}{3} \min\limits_{\alpha} \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) - \sum_{i=1}^N\alpha_i\\ \mbox{s.t. }\sum_{i=1}^N\alpha_iy_i = 0\\ \qquad0\le\alpha_i \le C, i =1, 2, \ldots, N\\ \end{array}$
求得 $α * = (α * 1, α * 2, \dots, α * N) T$ $\alpha^*=(\alpha_1^*, \alpha_2^*, \ldots, \alpha_N^*)^T$
求 $w * = \sum i = 1 N α * i y i x i$ $w^* = \sum_{i=1}^N\alpha_i^*y_ix_i$
选择一个正分量 $0<\alpha_j^*<C$ ,计算 $b * = y j - \sum i = 1 N α i y i (x i \cdot x j)$ $b^*=y_j-\sum_{i=1}^N\alpha_iy_i(x_i\cdot x_j)$
超平面 $w * \cdot x + b * = 0$ $w^*\cdot x + b^* = 0$
分类决策函数 $f (x) = sign (w * \cdot x + b *)$ $f(x)=\mbox{sign}(w^* \cdot x+ b^*)$

称 $\alpha_i^* >0$ 的实例为支持向量。若 $\alpha_i^* < C$ 则 $\zeta_i =0$ , 支持向量 $x_i$ 在间隔边界上。若 $\alpha_i^* = C，0 < \zeta_i < 1$ ，则分类正确，支持向量 $x_i$ 在间隔边界与分类超平面之间。若 $\alpha_i^* = C，\zeta_i = 1$ ，支持向量 $x_i$ 在分类超平面。若 $\alpha_i^* = C，\zeta_i > 1$ ，支持向量 $x_i$ 在分离超平面误分类一侧。(存在约束，参考引用)
显然，线性支持向量机更具一般化。
另外，据证明 $E(L_{test}) \le \frac{N_{sv}}{N}$ ，其中左侧方程表示测试集上错误率的期望，右侧表示支持向量数目，表示样本总数。他的意义是：支持向量越多，测试集上错误率可能会越高。这其实很容易理解，如果数据离分界面很远，那么支持向量一般会很少，测试性能自然会不错；反之，如果数据全部分布在分界面上，那表明数据缠绕很严重，测试集效果基本不靠谱。
参考SVM在线性不可分的情况下，利用核函数升维后就一定线性可分吗？-肖寒的回答

非线性支持向量机与核函数

对于输入空间相互缠绕程度比较强的训练集合，通过以上方法很难找到理想的分类超平面。我们知道，高维空间具有更强的数据表现能力，那么我们把输入空间映射到更高维空间，在高维空间最大化软间隔很可能取得更好的效果，very promising。

在此，我们定义核函数

K (x, z) = ϕ (x) \cdot ϕ (z)

$K(x,z)=\phi(x)\cdot\phi(z)$

ϕ(x) $\phi(x)$ 为输入空间到特征空间（高维）的映射。

注意，我们没有显式定义映射 $\phi(x)$ 。也就是说，特征空间的定义和输入空间到高维特征空间的映射都是隐式完成的。我们只要定义适当的核函数，那么一定存在对应的映射函数，使得两个实例在高维上映射的内积等于二者的核函数。在这，经常说的核函数是正定核函数。

因此，线性可分支持向量机学习算法-最大软间隔与核技法

选取适当的核函数 $K(x,z)$ 和适当的参数 $C$ ，构造并求解最优化问题
$min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i, x j) - \sum i = 1 N α i s.t. \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, \dots, N$ $\begin{array}{3} \min\limits_{\alpha} \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j) - \sum_{i=1}^N\alpha_i\\ \mbox{s.t. }\sum_{i=1}^N\alpha_iy_i = 0\\ \qquad0\le\alpha_i \le C, i =1, 2, \ldots, N\\ \end{array}$
求得 $α * = (α * 1, α * 2, \dots, α * N) T$ $\alpha^*=(\alpha_1^*, \alpha_2^*, \ldots, \alpha_N^*)^T$
选择一个正分量 $0<\alpha_j^*<C$ ,计算 $b * = y j - \sum i = 1 N α i y i K (x i, x j)$ $b^*=y_j-\sum_{i=1}^N\alpha_iy_iK(x_i,x_j)$
分类决策函数 $f (x) = sign (\sum i = 1 N α i y i K (x i, x) + b *)$ $f(x)=\mbox{sign}(\sum_{i=1}^N\alpha_iy_iK(x_i,x) +b^*)$