SVM算法

最新推荐文章于 2025-03-22 17:12:06 发布

有梦想的人不睡觉121

最新推荐文章于 2025-03-22 17:12:06 发布

阅读量2w

点赞数

分类专栏：机器学习文章标签： SVM 公式推导

机器学习专栏收录该内容

11 篇文章

订阅专栏

原文地址：https://blog.youkuaiyun.com/hongbin_xu/article/details/78508275

前言

支持向量机（Support Vector Machine，简称SVM）可以说是最经典的机器学习算法之一了。这几天再看SVM，参考了一些书籍和博客，这里把自己的笔记记录下来，以便以后复习查看。

间隔(margin)

分类学习最基本的思想就是：寻找一个超平面把数据集的样本空间划分成不同的样本。
比较直观的一种情况就是二维下的，如下图：
这里写图片描述（摘自百度百科）
直观上看，我们应该去寻找两类样本正中间的直线来划分这两类样本。图中有三根直线：先看绿线，不难发现，它穿过了黑色点集，分类肯定错误了；红线和蓝线都正确地分开了两类样本。然而，我们肯定都觉得蓝线不是一种很好的方法，因为它距离样本太近了，在这个数据集附近随机再取一个新的样本，很有可能就越过了它，导致分类错误；相对而言，红线更好，因为它到两类样本的距离都有一定距离，这也意味着，它对未知示例的泛化能力更强，是最鲁棒的。
以上也仅仅是直观上的理解，下面从数学层面进行分析。
在样本空间中我们用如下线性方程来描述划分超平面：

ω T x + b = 0

其中， ω=(ω1,ω2,...,ωd)ω=(ω1,ω2,...,ωd) 为法向量，决定了超平面的方向； bb 为法向量，决定了超平面与原点之间的距离； xx 为输入样本。
假设训练样本集 D={(x1,y1),(x2,y2),...,(xm,ym)}D={(x1,y1),(x2,y2),...,(xm,ym)} 。
接下来先推导样本空间中一个点到超平面距离的公式：

d = ∣ ∣ ω T x + b ∣ ∣ ∥ ω ∥

补充：样本空间中一个点到超平面距离的公式证明

我们要求：点x0(x(1)0,x(2)0,...,x(n)0)到超平面的S:ωTx+b=0的距离d。
先设点x1是点x0在超平面S上的投影，则肯定满足：ωTx1+b=0。
由于点x1是x0的投影，所以x0x1−→−与超平面S垂直，则x0x1−→−与超平面S的法向量平行。
我们知道超平面S的法向量是：ω=(ω1,ω2,...,ωn)。

| ω * x 0 x 1 - \to - | = （ ∥ ω T ∥ ） * | x 0 x 1 - \to - | * c o s < ω, x 0 x 1 - \to - >

由于平行，两向量的夹角为0度或者180度， |cos<ω,x0x1−→−>|=1|cos<ω,x0x1→>|=1 .
所以：

| ω * x 0 x 1 - \to - | = （ ∥ ω T ∥ ） * | x 0 x 1 - \to - | = （ ∥ ω ∥ ） * d (1)

又因为：

ω * x 0 x 1 - \to - = ω 1 (x (1) 1 - x (1) 0) + ω 2 (x (2) 1 - x (2) 0) + . . . + ω n (x (n) 1 - x (n) 0) = (ω 1 x (1) 1 + ω 2 x (2) 1 + . . . + ω n x (n) 1) - (ω 1 x (1) 0 + ω 2 x (2) 0 + . . . + ω n x (n) 0)

这里要用到前面的条件了，因为 x1x1 是超平面S内的点：

ω T x 1 + b = 0 ω 1 x (1) 1 + ω 2 x (2) 1 + . . . + ω n x (n) 1 + b = 0

所以得到：

ω * x 0 x 1 - \to - = - (ω 1 x (1) 0 + ω 2 x (2) 0 + . . . + ω n x (n) 0) - b = - (ω T x 0 + b) (2)

(1)(1) 和 (2)(2) 式子两者联立：

| ω * x 0 x 1 - \to - | = （ ∥ ω ∥ ） * d = | - (ω T x 0 + b) |

所以：

d = | ω T x 0 + b | ∥ ω ∥

上面推导出了任意点x到超平面的距离，接着往下走。
假设有一个超平面H:ωTx+b=0能正确地将样本划分开来，那么同时也肯定存在两个平行于H的平面H1和H2：

H 1 : ω T x + b = 1 H 2 : ω T x + b = - 1

距离超平面 HH 距离最近的正负样本正好就分别在 H1H1 和 H2H2 上，而这样的样本就是支持向量。
这里写图片描述

那么，假设超平面能将正负样本正确分类，则要满足如下条件：
对于任意样本 (xi,yi)(xi,yi) 有，若 yi=1yi=1 ，即为正样本，满足 ωTxi+b>0ωTxi+b>0 ；若 yi=−1yi=−1 ，即为负样本，满足 ωTxi+b<0ωTxi+b<0 。
令：

{ω T x i + b \geq 1, y i = + 1 ω T x i + b \leq - 1, y i = - 1 (3)

使用之前推出的任意点 xx 到超平面的距离的公式，不难发现，超平面 H1H1 和 H2H2 之间的距离是：

d = 2 ∥ ω ∥

这个东西就叫做间隔 (margin)。
而SVM的目标是就是找到一个超平面，使得间隔取到最大值，同时也要能保证正确地划分正负样本。

对偶问题

既然我们的目标是最大化间隔(margin)，那么可以给出如下问题：

max ω, b 2 ∥ ω ∥ s . t . y i (ω T x i + b) \geq 1, i = 1, 2, . . ., m

其中的约束条件： yi(ωTxi+b)≥1yi(ωTxi+b)≥1 由前面的式子(3)的约束条件推导得到。
欲最大化 2∥ω∥2‖ω‖ ，那么等价于最小化 ∥ω∥‖ω‖ ，那么也等价于最小化 ∥ω∥2‖ω‖2 。
那么上面的优化问题可以改写为：

min ω, b ∥ ω ∥ 2 2 s . t . y i (ω T x i + b) \geq 1, i = 1, 2, . . ., m

好的，上示就是SVM的基本型。
接下来考虑如何求解这个问题，找到最合适的 ωω 和 bb 。
我们要用到拉格朗体乘数法进行求解，由于约束条件中还带有不等式约束，所以还需要考虑KKT条件。

补充：拉格朗日乘数法与KKT条件

通常的优化问题有三种：

无约束优化问题：
$min x f (x)$
约束条件有等式优化问题：
$min x f (x) s . t . h i (x) = 0, i = 0, 1, . . ., n$
约束条件有不等式优化问题：
$min x f (x) s . t . h i (x) = 0, g i (x) \leq 0, i = 0, 1, . . ., n$

分别考虑这几种情况吧：
无约束优化问题：求导，令导数为0，求得的解就是极值，随后从中选出最优解。
约束条件有等式优化问题：使用拉格朗日乘数法，把等式约束 hi(x) 乘以一个拉格朗日系数并与 f(x) 加在一个式子中，这个函数称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。

L (a, x) = f (x) + a * h i (x)

约束条件有不等式优化问题：同样使用拉格朗体乘数法，最常使用的就是KKT条件。与前面一样，将所有等式约束与不等式约束和 f(x)f(x) 写为一个函数，拉格朗日函数。通过一些条件，这些条件是可以求出最优值的必要条件，这个条件就是KKT条件。

L (a, b, x) = f (x) + a * g i (x) + b * h i (x)

我们主要考虑的就是约束条件有不等式优化问题，毕竟我们的SVM的基本式就是有不等式约束。

拉格朗日乘数法

假设给出如下问题：

min x f (x) s . t . h i (x) = 0, g i (x) \leq 0, i = 0, 1, . . ., n

对于等式约束与不等式约束，将其与 f(x)f(x) 组合，构成拉格朗日函数：

L (a, b, x) = f (x) + a * g i (x) + b * h i (x)

。
对各参数求导取0，联立求得最优值。

KKT条件

对于含有不等式约束的优化问题，将其转换为对偶问题：

max a, b min x L (a, b, x) s . t . a i \geq 0, i = 1, 2, . . ., n

其中 L(a,b,x)L(a,b,x) 为拉格朗日函数。

L (a, b, x) = f (x) + a * g i (x) + b * h i (x)

KKT条件就是说，原始问题的最优值 x∗x∗ 与对偶问题最优值 a∗a∗ 和 b∗b∗ 要满足如下关系：
1. ∇xL(a∗,b∗,x∗)=0,∇aL(a∗,b∗,x∗)=0,∇bL(a∗,b∗,x∗)=0∇xL(a∗,b∗,x∗)=0,∇aL(a∗,b∗,x∗)=0,∇bL(a∗,b∗,x∗)=0 ；
2. a∗gi(x∗)=0a∗gi(x∗)=0 ；
3. gi(x∗)≤0gi(x∗)≤0 ；
4. ai≥0,hj(x)=0ai≥0,hj(x)=0 ；
当原始问题和对偶问题的解都满足KKT条件，并且 f(x)f(x) ， g(x)g(x) 都是凸函数是，原始问题与对偶问题的解相等。

下面简单证明一下：
就用前面给出的问题：

min x f (x) s . t . h i (x) = 0, g i (x) \leq 0, i = 0, 1, . . ., n

我们可以构造函数：

L (a, b, x) = f (x) + a * g i (x) + b * h i (x)

由于KKT条件还要有 a≥0a≥0 。
我们发现：

max a, b L (a, b, x) = max a, b (f (x) + a * g i (x) + b * h i (x))

由于 hi(x)=0hi(x)=0 ，所以 maxa,bb∗hi(x))=0maxa,bb∗hi(x))=0 。
由于 gi(x)≤0gi(x)≤0 ， a≥0a≥0 ，所以 maxa,ba∗gi(x))=0maxa,ba∗gi(x))=0 。（这也正是拉格朗日常数的用意所在，只有在 a∗g(x)=0a∗g(x)=0 时 L(a,b,x)L(a,b,x) 才能取到最大值，这是KKT的第二个条件）
最后发现：

max a, b L (a, b, x) = max a, b f (x) = f (x)

因此我们最初的目标函数可以改写为：

min x f (x) = min x max a, b L (a, b, x)

如下展开对偶式子 maxa,bminxL(a,b,x)maxa,bminxL(a,b,x) 可以发现我们的优化是满足强对偶（对偶式子的最优值是等于原问题的最优值的）：
假设最后取得的最优值是 x∗x∗

max a, b min x L (a, b, x) = max a, b min x (f (x) + a * g i (x) + b * h i (x)) = max a, b (min x f (x) + a * min x g i (x) + b * min x h i (x)) = (max a, b f (x *) + max a, b (a * min x g i (x)) + max a, b (b * min x h i (x)))

由于 hi(x)=0hi(x)=0 ，所以 maxa,b(b∗minxhi(x))=0maxa,b(b∗minxhi(x))=0 。
由于 gi(x)≤0gi(x)≤0 ， a≥0a≥0 ，所以 maxa,b(a∗minxgi(x))=0maxa,b(a∗minxgi(x))=0 。
所以上式变为：

max a, b min x L (a, b, x) = (max a, b f (x *)) = f (x *) = min x max a, b L (a, b, x)

这里就证明了，原问题与对偶问题的最优值是相同的。
原问题可以转换为对偶问题求解

好的，回到SVM的问题上来。
我们希望优化的问题是：

min ω, b ∥ ω ∥ 2 2 s . t . y i (ω T x i + b) \geq 1, i = 1, 2, . . ., m

建立拉格朗日函数：

L (ω, b, α) = ∥ ω ∥ 2 2 + \sum i = 1 m α i * (1 - y i (ω T x i + b))

其中 α=(α1,α2,...,αm)α=(α1,α2,...,αm) 为拉格朗日常数，且由KKT条件有： α≥0α≥0 。
令 L(ω,b,α)L(ω,b,α) 分别对 ωω 和 bb 求导取0：
这里涉及矩阵求导，不了解请自行百度

\partial L \partial ω = \partial ( 1 2 ω T ω ) \partial ω + \partial \sum m i = 1 α i \partial ω - \partial \sum m i = 1 α i y i ω T x i \partial ω - \partial \sum m i = 1 α i y i b \partial ω = ω - \sum i = 1 m α i y i x i = 0

\partial L \partial b = \partial ( 1 2 ω T ω ) \partial b + \partial \sum m i = 1 α i \partial b - \partial \sum m i = 1 α i y i ω T x i \partial b - \partial \sum m i = 1 α i y i b \partial b = - \sum i = 1 m α i y i = 0

所以得到两个式子;

ω = \sum i = 1 m α i y i x i

0 = \sum i = 1 m α i y i

将它们代回到拉格朗日函数中，可以消去 ωω 和 bb ：

L (ω, b, α) = ∥ ω ∥ 2 2 + \sum i = 1 m α i * (1 - y i (ω T x i + b)) = 1 2 ω T ω + \sum i = 1 m α i - \sum i = 1 m α i y i ω T x i - \sum i = 1 m α i y i b = 1 2 ω T \sum i = 1 m α i y i x i + \sum i = 1 m α i - \sum i = 1 m α i y i ω T x i - b \sum i = 1 m α i y i = - 1 2 ω T \sum i = 1 m α i y i x i + \sum i = 1 m α i - b * 0 = \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j

接下来求原问题的对偶问题：

m a x α m i n ω, b L (ω, b, α) = m a x α m i n ω, b (\sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j) = m a x α (\sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j)

KKT条件:

α \geq 0, \sum i = 1 m α i y i = 0 1 - y i * f (x i) \leq 0, α i * (1 - y i * f (x i)) = 0

到这里SVM的模型已经出来了。现在我们的问题是如何求出这些α。有许多程序工具包可以帮助我们求解出合适的α参数，当然还有一种十分快速高效的算法：SMO。我们不妨先放一放这个问题，先从结果分析看看。
我们可以求出α，随后套用前面的公式求出ω和b：

ω = \sum i = 1 m α i y i x i b = y i - ω T * x i

观察一下不难发现，这里的b可能有很多个解，因为每一个样本集 (xi,yi)(xi,yi) 都会对应一个b的可能取值。
实际中采用一种更鲁棒的方法，即取所有的支持向量求解的b的均值：
假设 S={i|αi>0,i=1,2,...,m}S={i|αi>0,i=1,2,...,m} 为最后求得的支持向量集合。因为非支持向量的点对应的 αi=0αi=0 ，所以去掉那一部分，只保留支持向量即可求得 bb 。

b = 1 | S | \sum s \in S (y s - \sum i \in S α i y i x T i x s)

最后得到模型：

f (x) = ω T x + b = \sum i = 1 m α i y i x T i x + b

由KKT条件：

{α \geq 0 α i * (1 - y i * f (x i)) = 0

分类讨论可以知道，只有可能有两种情况：
- αi=0αi=0 ，此时这个样本在模型中不起作用，因为结果是0。
- αi>0αi>0 ，那么，一定有 1−yi∗f(xi)=01−yi∗f(xi)=0 ，则： yi∗f(xi)=1yi∗f(xi)=1 。表示这个样本在最大间隔边界上，是支持向量。
在这个模型中，除了支持向量的 αi>0αi>0 以外，其他样本都不起作用。如此一来，大部分样本都不会被保留，只会保留支持向量。

这次就先到这里吧，下次在介绍svm的核函数、软间隔以及SMO算法等概念。前面推导分析了基本的SVM模型，也介绍了拉格朗日常数法与KKT条件的应用。不得不说，打公式很累啊。

参考资料：
《机器学习》周志华
http://blog.youkuaiyun.com/dawnranger/article/details/53133450