【统计机器学习】支持向量机

最新推荐文章于 2025-02-18 23:37:34 发布

原创最新推荐文章于 2025-02-18 23:37:34 发布 · 325 阅读

CC 4.0 BY-SA版权

14 篇文章

订阅专栏

支持向量机是一种基于间隔最大化的二分类模型，结合核函数处理非线性问题。文章介绍了对偶问题、SMO算法解决优化问题，以及软间隔在处理实际数据中的应用，通过hinge损失函数实现模型的正则化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

·支持向量机是一种二分类模型。基本模型是定义在特征空间上的间隔最大的线性分类器。

支持向量机的学习策略就是间隔最大化

支持向量机还包括各种核技巧，学习算法是求解凸二次优化的最优化算法

核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的內积。

间隔与支持向量

给定样本集 $D={(x1,y1),(x2,y2),...,(xm,ym)},yiϵ{−1,+1}D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},y_i\epsilon\{-1,+1\}$ ,分类的目标在样本空间上找一个划分超平面，将不同样本分开。

在样本空间中划分超平面可通过下面的线性方程来描述：
$ωTx+b=0\omega^Tx+b=0$

其中 $ω=(ω1;ω2;...;ωd)\omega=(\omega_1;\omega_2;...;\omega_d)$ 为法向量，b为位移量。可将超平面表示为 $(ω,b)(\omega,b)$ 。

空间中任意点x到超平面距离为
$\frac{|\omega^Tx+b|}{||\omega||}$

假设超平面 $(ω,b)(\omega,b)$ 可以对样本正确分类。即
$ωTxi+b⩾+1,yi=+1\omega^Tx_i+b\geqslant+1, y_i=+1$
$ωTxi+b⩽+1,yi=−1\omega^Tx_i+b\leqslant+1, y_i=-1$

距离超平面最近的几个使得等式成立，称为支持向量。
两个异类支持向量到超平面距离之和为,也被称为间隔
$γ=2∣∣ω∣∣\gamma=\frac{2}{||\omega||}$

目标在于找到具有最大间隔的超平面，也就是使得 $γ\gamma$ 最大的参数 $ω\omega$ 和b
在这里插入图片描述

等价于最小化下面这个问题
在这里插入图片描述

对上面这个式子应用拉格朗日乘子法得到其对偶问题，具体来说，对于上面每个约束都添加拉格朗日乘子 $αi⩾0\alpha_i\geqslant0$ ,可写为

令偏导为0可得
在这里插入图片描述
带入上一节最后公式可得其对偶问题
公式1

上面这个式子需要满足不等式约束的KKT条件

也就是 $αi=0\alpha_i=0$ 和 $y_if(x_i)=1$ 总有一个成立。说明训练完成后，大部分训练样本都不需要保留，模型仅与支持向量有关

下面这张图给出SVM的推导过程
在这里插入图片描述

如何求解上面这个公式呢？该问题的规模正比于训练样本数，会造成很大的开销。SMO是一种高效方法

基本思路：

先固定 $αi\alpha_i$ 之外的所有参数。然后求 $αi\alpha_i$ 上的极值
(由于存在约束 $∑i=1mαiyi=0\sum_{i=1}^m\alpha_iy_i=0$ ，若固定其他变量， $αi\alpha_i$ 可由其他变量计算出)
每次选择两个变量 $αi\alpha_i$ 和 $αj\alpha_j$ 并固定其他参数
求解公式1，获得更新后的 $αi\alpha_i$ 和 $αj\alpha_j$
重复上面两个步骤，直到收敛