【统计学习方法】支持向量机之线性支持向量机

最新推荐文章于 2022-05-23 23:18:20 发布

原创最新推荐文章于 2022-05-23 23:18:20 发布 · 置顶 · 379 阅读

1 ·

CC 4.0 BY-SA版权

本文深入探讨了线性支持向量机在面对线性不可分数据时如何通过引入松弛变量解决。介绍了软间隔最大化的目标函数，并将其转化为凸二次规划问题。接着，通过拉格朗日乘子法推导出学习的对偶算法，最终得到支持向量的定义及其在分类决策中的作用。

前篇：【统计学习方法】支持向量机之线性可分支持向量机

一、线性支持向量机

假设给定一个特征空间上的训练数据集： $T={(x_1，y_1 ),(x_2，y_2 ),…,(x_N，y_N )}$ 其中， $x_i∈X∈R^n，y_i∈{-1,+1}$
假设训练数据集不是线性可分的，通常情况是，训练数据中有一些特异点，将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的，即总统上是线性可可分的，只是有少部分的散点。
线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足函数间隔大于等于1的约束条件.为了解决这个问题，可以对每个样本点引进一个松弛变量 $ξ_i$ ，使函数间隔加上松弛变量大于等于1。这样，约束条件变为： $y_i (w.x_i+b)≥1-ξ_i$
同时，对每个松弛变量,支付一个代价 $ξ$ 。目标函数由原来的 $\frac{1}{2} ||w||^2$ 变成: $\frac{1}{2} ||w||^2+C∑_{i=1}^Nξ_i$
- $C > 0$ 称为惩罚参数，一般由应用问题决定， $C$ 值大时对误分类的惩罚增大， $C$ 值小时对误分类的惩罚减小.
- 目标函数包含两层含义：
  - 使 $\frac{1}{2} ||w||^2$ 尽量小,即间隔尽量大
  - 同时使误分类点的个数尽量小
经过上面的转化，就可以和线性可分时一样来考虑线性不可分时的线性支持向量机学习问题.称为软间隔最大化.
线性不可分的线性支持向量机的学习问题变成如下凸二次规划问题(原始问题) ： $\min _{w,b,ξ} \frac{1}{2} ||w||+C∑_{i=1}^Nξ_i$ $\qquad y_i (w.x_i+b)≥1-ξ_i ,i=1,2,…,N$ $ξ_i≥0 ,i=1,2,…,N$
原始问题是一个凸二次规划问题，因而关于 $(w, b, ξ)$ 的解是存在的.可以证明 $w$ 的解是唯一的，但 $b$ 的解不唯一， $b$ 的解存在于一个区间.
线性支持向量机的定义:
- 对于给定的线性不可分的训练数据集，通过求解下面凸二次规划问题来得到最优解： $\min _{w,b,ξ} \frac{1}{2} ||w||^2+C∑_{i=1}^Nξ_i$ $\qquad y_i (w.x_i+b)≥1-ξ_i ,i=1,2,…,N$ $ξ_i≥0 ,i=1,2,…,N$
- 假设问题的解是 $w^*,b^*$ ,于是得到的分离超平面为： $w^**x+b^*=0$
- 以及相应的分类决策函数: $f(x)=sign(w^**x+b^* )$ 称为线性支持向量机. 显然，线性支持向量机包含线性可分支持向量机

二、学习的对偶算法

拉格朗日函数： $L(w,b,ξ,α,μ)=\frac{1}{2} ||w||^2+C∑_{i=1}^Nξ_i -∑_{i=1}^Nα_i (y_i (w*x_i+b)-1+ξ_i ) -∑_{i=1}^Nμ_i ξ_i$ 其中 $μ_i≥0,α_i≥0$
首先求 $L (w, b, ξ, α, μ)$ 对 $w, b, ξ$ 的极小: $_w L(w,b,ξ,α,μ)=w-∑_{i=1}^Nα_i y_i x_i =0$ $_b L(w,b,ξ,α,μ)=-∑_{i=1}^Nα_i y_i =0$ $_{ξ_i } L(w,b,ξ,α,μ)=C-α_i-μ_i=0$ 得： $w=∑_{i=1}^Nα_i y_i x_i$ $_{i=1}^Nα_i y_i =0$ $C-α_i-μ_i=0$ 带入 $L (w, b, ξ, α, μ)$ 中去： $\min_{w,b,ξ}⁡L(w,b,ξ,α,μ)=\frac{1}{2} ||w||^2+C∑_{i=1}^Nξ_i -∑_{i=1}^Nα_i (y_i (w*x_i+b)-1) -∑_{i=1}^Nα_i ξ_i -∑_{i=1}^Nμ_i ξ_i$ $=\frac{1}{2} ||w||^2-∑_{i=1}^Nα_i (y_i (w*x_i+b)-1) +(C-α_i-μ_i ) ∑_{i=1}^Nξ_i$ $=\frac{1}{2} ||w||^2-∑_{i=1}^Nα_i (y_i (w*x_i+b)-1)$ 与线性可分支持向量机一样，所以最后得到： $D(α)=\min_{w,b,ξ}⁡L(w,b,ξ,α,μ)=-\frac{1}{2} ∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j) +∑_{i=1}^Nα_i$
再对 $D (α)$ 求α的极大，即得对偶问题： $\max_α⁡(-\frac{1}{2}∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j))+∑_{i=1}^Nα_i$ $st. ∑_{i=1}^Nα_i y_i =0$ $α_i≥0$ $μ_i≥0$ $C-α_i-μ_i=0 ,i=1,2,…,N$ 利用等式约束 $C-α_i-μ_i=0$ 消去 $μ_i$ ，从而只留下变量 $α_i$ ，这样将后面三个约束并为一个约束写成： $0≤μ_i≤C$ 再将对目标函数求极大转换为求极小，于是得到对偶问题： $\min_α⁡(\frac{1}{2}∑_{i=1}^N∑_{j=1}^Nα_i α_j y_i y_j (x_i *x_j))-∑_{i=1}^Nα_i$ $st. ∑_{i=1}^Nα_i y_i =0$ $0≤α_i≤C ,i=1,2,…,N$
假设我们现在通过某种方法求得了对偶问题的解： $α^*=(α_1^*,α_2^*,…,α_N^*)$ ，现在需要求出原始问题的解 $w^*,b^*$ ，由强对偶性可知 $w^*,b^*,α^*$ 满足KKT条件： $_w L(w^*,b^*,ξ^*,α^*,μ^* )=w^*-∑_{i=1}^Nα_i^* y_i x_i =0$ $_w L(w^*,b^*,ξ^*,α^*,μ^* )=w^*-∑_{i=1}^Nα_i^* y_i x_i =0$ $_b L(w^*,b^*,ξ^*,α^*,μ^* )=-∑_{i=1}^Nα_i^* y_i =0$ $_{ξ_i } L(w,b,ξ,α,μ)=C-α_i^*-μ_i^*=0$ $y_i (w^**x_i+b^* )-1+ξ_i^*≥0$ $α_i^*≥0$ $α_i^* (y_i (w^**x_i+b^* )-1+ξ_i^* )=0$ $ξ_i≥0 ,i=1,2,…,N$ $μ_i≥0$ $μ_i ξ_i=0$ 由第一个式子可以得到 $w^*$ 的 $α_i^*$ 表达式： $w^*=∑_{i=1}^Nα_i^* y_i x_i$ 若存在 $0<α_j^*<C$ ，根据KKT条件有： $α_j^* (y_j (w^**x_j+b^* )-1+ξ_j^* )=0$ 得： $y_j (w^**x_j+b^* )-1+ξ_j^*=0$ $b^*=y_j-y_j ξ_j^*-w^**x_j$ 又由于： $C-α_j^*-μ_j^*=0$ 所以： $μ_j^*>0$ 再根据： $μ_i ξ_i=0$ 得: $ξ_i=0$ 最后得到： $b^*=y_j-w^**x_j=y_j-∑_{i=1}^Nα_i^* y_i (x_i*x_j)$ 同时我们可以得到： $y_j (w^**x_j+b^* )-1=0$ 样本 $x_j,y_j)$ 为间隔边界上的支持向量。
由上面推导可知只要存在支持向量，即存在 $0<α_j^*<C$ ，则 $w^*,b^*$ 的表示式与线性可分支持向量机式一样的。
分离超平面可以写成： $_{i=1}^Nα_i^* y_i x_i *x+b^*=∑_{i=1}^Nα_i^* y_i (x_i *x)+b^*=0$
分类决策函数可以写成: $f(x)=sign(∑_{i=1}^Nα_i^* y_i (x_i *x)+b^*)$ 上式称为线性可分支持向量机的对偶形式
上面所说的求解对偶问题的某种方式：一般为SMO算法可以参考链接：https://blog.youkuaiyun.com/ACM_hades/article/details/90701030

三、支持向量

在线性不可分的情况下，假设对偶问题的解为： $α^*=(α_1^*,α_2^*,…,α_N^*)$ ，其中 $α_i^*>0$ 对应于的样本点 $x_i,y_i)$ ，称为支持向量(软间隔的支持向量).如下图所示：

图中标出了实例 $x_i$ 到间隔边界的距离 $\frac{ξ_i}{||W||}$
软间隔的支持向量 $x_i$ 要么在间隔边界上要么在间隔边界之间，它们也可能在分离超平面误分一侧：
- 当 $0<α_i^*<C→μ_i^*>0→ξ_i^*=0$ ,所以支持向量 $x_i$ 落在间隔边界上。
- 当 $α_i^*=C→μ_i^*=0→ξ_i^*>0$ ，
  - 若 $0<ξ_i^*<1$ :则 $x_i$ 分类正确,且落在间隔边界与分离超平面之间。
  - 若 $ξ_i^*=1$ :则 $x_i$ 在分离超平面上。
  - 若 $ξ_i^*>1$ :则 $x_i$ 分类错误,且落在间隔边界与分离超平面之间
- 当 $α_i^*=0, x_i$ 落在间隔边界以外。