机器学习技法-4-Soft Margin Support Vector Machine

理解软间隔支持向量机及其优化策略

最新推荐文章于 2022-01-27 13:52:13 发布

原创最新推荐文章于 2022-01-27 13:52:13 发布 · 882 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习技法专栏收录该内容

5 篇文章

订阅专栏

本文深入探讨了支持向量机（SVM）的软间隔概念，通过引入松弛变量允许一定的误差和噪声容忍，从而实现更加实用和灵活的分类。详细解释了软间隔SVM的数学模型、优化目标、拉格朗日乘子法以及如何通过交叉验证选择合适的超参数。此外，阐述了软间隔与硬间隔SVM的区别，并强调了软间隔在实际应用中的优势。

有时候，SVM可能分割的太过了，黑即是黑，白即是白，其实这样“刚正无私”overfit也不好，所以就需要“中庸之道”，要允许有部分的误差或噪声，这就是为什么要有Soft Margin~还是ppt上的图解释的好
犯错要越少越好，这就是pocket，这是最原始的思想：允许犯错，但是犯的错要越少越好~这个 $\neq$ 表示分错了，这个 $\neq$ 的个数要越少越好

min b, w \sum n = 1 N （ y n \neq s i g n (w T z n + b) ）

$\min_{b,\mathbf{w}}\sum_{n=1}^{N}（y_n\neq sign(\mathbf{w}^T\mathbf{z}_n+b)）$
将上述思想融合到hard-margin SVM中
不想写那么多中间式。
soft-margin SVM:

min b, w, ξ 1 2 w T w + C \cdot \sum n = 1 N ξ n s . t . y n (w T z n + b) ⩾ 1 - ξ n a n d ξ n ⩾ 0 f o r a l l n

$\begin{aligned} &\min_{b,\mathbf{w},\ \xi}\ \frac{1}{2}\mathbf{w}^T\mathbf{w}+C\cdot\sum_{n=1}^{N}\xi_n &s.t.\ \ y_n(\mathbf{w}^T\mathbf{z}_n+b)\geqslant1-\xi_n\ and\ \xi_n\geqslant0\ for\ all\ n \end{aligned}$
其中，用

ξn $\xi_n$ 表示error的大小，即margin violation
用

C $C$ 表示一个权衡因子trade-off，large margin和margin violation哪个更重要

C $C$ 大，则是边界窄，严格，噪声少

C $C$ 小，则是边界宽，宽松，噪声多

习题啥意思？

式子写出来了，怎么求解呢？
写成Lagrange function，Lagrange multipliers $\alpha_n$ , $\beta_n$

max α n ⩾ 0, β n ⩾ 0 (min b, w L (b, w, ξ, α, β) = 1 2 w T w + C \cdot \sum n = 1 N ξ n + \sum n = 1 N α n \cdot (1 - ξ n - y n (w T z n + b)) + \sum n = 1 N β n \cdot (- ξ n))

$\max_{\alpha_n\geqslant0,\ \beta_n\geqslant0}\left (\min_{b,\mathbf{w}}\ \mathcal{L}(b,\mathbf{w},\mathbf{\xi},\alpha,\beta)=\frac{1}{2}\mathbf{w}^T\mathbf{w}+C\cdot \sum_{n=1}^N\xi_n+\sum_{n=1}^{N}\alpha_n\cdot(1-\xi_n-y_n(\mathbf{w}^T\mathbf{z}_n+b))+\sum_{n=1}^N\beta_n\cdot(-\xi_n) \right )$
通过条件

∂L∂ξn=0=C−αn−βn $\frac{\partial \mathcal{L}}{\partial \xi_n}=0=C-\alpha_n-\beta_n$ 消掉

ξn $\xi_n$ ，主要是

βn=C−αn⩾0 $\beta_n=C-\alpha_n\geqslant0$ 反代回去消掉的！同时有条件

0⩽αn⩽C $0\leqslant\alpha_n\leqslant C$
所以上述Lagrange dual简化为

max 0 ⩽ α n ⩽ C, β n = C - α n (min b, w 1 2 w T w + \sum n = 1 N α n \cdot (1 - y n (w T z n + b)))

$\max_{0\leqslant\alpha_n\leqslant C,\ \beta_n=C-\alpha_n}\left (\min_{b,\mathbf{w}}\ \ \ \ \frac{1}{2}\mathbf{w}^T\mathbf{w}+\sum_{n=1}^{N}\alpha_n\cdot(1-y_n(\mathbf{w}^T\mathbf{z}_n+b)) \right )$
注意观察这个形式，除了max下面的约束条件不同，式子的形式和hard-margin很像！所以和以前一样，转化为在KKT约束条件的二次规划求解出

αn $\alpha_n$ ，然后由KKT约束条件分别求出

w=∑Nn=1αnynzn $\mathbf{w}=\sum_{n=1}^N\alpha_ny_n\mathbf{z}_n$ 和

βn=C−αn $\beta_n=C-\alpha_n$ （表达式略有不同！）忘了KKT就回去看第2课！

习题想表达：参数 $C$ 直接成为 $\alpha_n$ 上限值

Kernel Soft_Margin SVM
和以前的Hard-Margin相比有，上限（upper-bound）
soft-Margin比Hard-Margin更常用
（看不懂就经常返回去多看几遍）

$\alpha_n$ 的物理意义，这个很有意思啊！
complementary slackness:

α n (1 - ξ n - y n (w T z n + b)) = 0 (C - α n) ξ n = 0

$\begin{equation} \begin{aligned} &\alpha_n(1-\xi_n-y_n(\mathbf{w}^T\mathbf{z}_n+b))=0\\ &(C-\alpha_n)\xi_n=0 \end{aligned} \end{equation}$

non SV $(0=\alpha_n):\xi_n=0$ （没有违反边界）远离胖胖边界
free SV $(0\leqslant\alpha_n\leqslant C):\xi_n=0$ （没有违反边界）刚好在胖胖边界上的点
bounded SV $(\alpha_n=C):\xi_n$ =违规点的数量

就是一个selection的过程：有两种方法，cross-validation，nSV
我的理解就是通过上面两种方法，选择一个好的model
how to select?
$E_{cv}（C,\gamma）$ 就是cross-validation所求的那个值,具体怎么求不知道，但是如果这个值求出来越大，选择的model就越overfit（就是分类分的太过了！）
$nSV(C,\gamma)$ ,这个作为安全检查，因为上面那个 $E_{cv}（C,\gamma）$ 求起来有时候很费时间。但这个只是个上限（我的理解就是这个可能是model的overfit的最大值，但不是真实值，真实值在这个之下）

这里写图片描述