第七章支持向量机（一）线性可分支持向量机与硬间隔最大化

最新推荐文章于 2025-06-20 18:28:04 发布

原创最新推荐文章于 2025-06-20 18:28:04 发布 · 703 阅读

2 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了支持向量机(SVM)的基本原理和技术细节，包括线性可分、线性与非线性三种模型，以及如何通过硬间隔最大化实现最优分类超平面的求解过程。

模型：二类分类模型
3种支持向量机模型
线性可分支持向量机：硬间隔最大化+线性分类器
线性支持向量机：软间隔最大化+线性分类器
非线性支持向量机：核技巧+软间隔最大化
策略：形式化为求解凸二次规划问题
算法：求解凸二次规划的最优化算法

线性可分支持向量机与硬间隔最大化

训练数据集 $D=\{(x_1,y_1),(x_2,y_2)...(x_n,y_n)\}$
$x_i \in R^n,y_i \in \{+1,-1\}$

f (x) = s i g n (w \cdot x + b)

$f(x) = sign(w \centerdot x+b)$
参数

w,bw,b $w,b$ 。
和感知机一样，学习的目标是在特征空间中寻找一个分离超平面。
感知机的策略是：误分类最小，解不唯一
线性可分SVM：间隔最大化，解唯一

一、函数间隔与几何间隔

样本的函数间隔

γ i^= y i (w \cdot x i + b)

$\hat{\gamma_i}=y_i(w\centerdot x_i+b)$
训练集的函数间隔

γ^= m i n i = 1, . . . n γ i^

$\hat{\gamma}= \mathop{min}_{i=1,...n}\hat{\gamma_i}$
函数间隔可以表示分类预测的正确性及确信度
符号为正表示分类正确；反之错误
数值越小，表示离超平面越近，该点的预测就不那么确信。
成比例的改变

w,bw,b $w,b$ ,超平面不变，函数间隔成倍的改变
样本的几何间隔

γ i = y i (w | | w | | \cdot x i + b | | w | |)

${\gamma_i}=y_i(\frac{w}{||w||}\centerdot x_i+\frac{b}{||w||})$
训练集的几何间隔

γ = m i n i = 1, . . . n γ i

${\gamma}= \mathop{min}_{i=1,...n}{\gamma_i}$
函数间隔和几何间隔的关系

γ i = γ i ^ | | w | |

${\gamma_i}=\frac{\hat{\gamma_i}}{||w||}$

γ = γ ^ | | w | |

${\gamma}=\frac{\hat{\gamma}}{||w||}$
几何间隔是有符号的，分类正确时才等于点到超平面的距离

二、硬间隔最大化

感知机中有无数的分离超平面，而哪一个才是最好的（泛化能力最强）？
SVM直观想法：离超平面最近的点尽可能的远离超平面
我们最关心的的是离超平面最近的点（最难分的点），如果超平面有足够大的确信度将他们分开，这个超平面应该对未知的新实例有很好的分类预测能力。
几何间隔最大的分离超平面可以表示为下面的约束最优化问题

m a x w, b γ

$\mathop{max}_{w,b} \quad \gamma$

s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, 2, . . n

$s.t.\quad y_i(\frac{w}{||w||}\centerdot x_i+\frac{b}{||w||}) \ge \gamma, \qquad i=1,2,..n$
由函数间隔和几何间隔的关系，得

m a x w, b γ ^ | | w | |

$\mathop{max}_{w,b} \quad \frac{\hat{\gamma}}{||w||}$

s . t . y i (w \cdot x i + b) \geq γ^, i = 1, 2, . . n

$s.t.\quad y_i(w\centerdot x_i+b) \ge\hat{\gamma}, \qquad i=1,2,..n$
缩放超平面的参数，函数间隔的取值是可以任意改变的，因此将最小的函数间隔取为1（

γ^=1γ^=1 $\hat{\gamma}=1$ ）
最大化

1||w||1||w|| $\frac{1}{||w||}$ 等价于最小化

12||w||212||w||2 $\frac{1}{2}||w||^2$
线性可分支持向量机的最优化问题为

m i n w, b 1 2 | | w | | 2 (1)

$\mathop{min}_{w,b} \quad \frac{1}{2}||w||^2 \tag{1}$

s . t . - y i (w \cdot x i + b) + 1 \leq 0, i = 1, 2, . . n (2)

$s.t.\quad -y_i(w\centerdot x_i+b)+1 \le0, \qquad i=1,2,..n\tag{2}$

三、支持向量与间隔边界

支持向量：训练集中离超平面最近的点（是使约束条件等号成立的点）
超平面 $w\centerdot x+b=+1$ 和 $w\centerdot x+b=-1$ 称为间隔边界。
这里写图片描述
在决定超平面时只有支持向量其作用。如果移动支持向量将改变所求解，但是如果在间隔边界以外移动其他点，甚至删去这些点，则解是不会改变的。

四、对偶算法

这部分需要先了解拉格朗日对偶，以下表述有部分不严谨

4.1、对偶算法一般步骤

1.把约束优化问题写成规范的原始问题（规范的原始问题的目标函数是最小化问题，不等式约束是小于等于）
2.引入拉格朗日乘子，构建拉格朗日函数L
3.求解对偶问题的解，L的极大极小问题，（先极小求偏导，再极大用SMO算法）
4.根据KKT条件得到原始问题解和对偶问题解的关系。

4.2、线性可分SVM应用对偶算法

1.公式（1）（2）已经是规范的原始问题
2.构建拉格朗日函数（引入拉格朗日乘子 $\alpha_i \ge 0,i=1,2...n$ ，把约束问题写成无约束）

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 n α i y i (w \cdot x i + b) + \sum i = 1 n α i

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^n\alpha_iy_i(w\centerdot x_i+b)+\sum_{i=1}^n\alpha_i$

3.原始问题的解等价于先求拉格朗日函数对 $\alpha$ 求极大，再对 $w,b$ 求极小。解是 $w,b$ 。
原始问题 = L的极小极大问题
对偶问题的解等价于先求拉格朗日函数对 $w,b$ 求极小，再对 $\alpha$ 求极大。解是 $\alpha$ 。
对偶问题 = L的极大极小问题

m a x α m i n w, b L (w, b, α)

$\mathop {max}_{\alpha}\mathop {min}_{w,b}L(w,b,\alpha)$
(1) 求 $\mathop {min}\limits_{w,b}L(w,b,\alpha)$
公式敲不动了，手写字真丑ヽ(｀Д´)ﾉ︵ ┻━┻ ┻━┻
这里写图片描述

通过求导和回代就得到了

m i n w, b L (w, b, α) = - 1 2 \sum i = 1 n \sum j = 1 n α i α j y i y j (x i \cdot x j) + \sum i = 1 n α i

$\mathop {min}\limits_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j(x_i\centerdot x_j)+\sum_{i=1}^n\alpha_i$
(2) 求 $\mathop {min}\limits_{w,b}L(w,b,\alpha)$ 对 $\alpha$ 的极大,即对偶问题