机器学习笔记08：支持向量机（一）(SVM)

最新推荐文章于 2025-10-13 14:31:53 发布

原创最新推荐文章于 2025-10-13 14:31:53 发布 · 3.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #SVM #机器学习 #分类器

Machine Learning 同时被 2 个专栏收录

25 篇文章

订阅专栏

Coursera 斯坦福大学机器学习笔记

15 篇文章

订阅专栏

本文深入浅出地介绍了支持向量机(SVM)的基本概念，包括最大间隔分类、优化目标及数学原理等内容，并强调了理解逻辑回归的重要性。

在网上找了很多支持向量机的资料看都是迷迷糊糊没完全搞懂，可能是我理解能力比较差，最后还是 Coursera 上吴大神的 Machine Learning 课程把我一下子讲懂了。

由于支持向量机是由逻辑回归(Logistic Regression)衍生而来的，所以学习 SVM 之前务必完全理解逻辑回归。另外，文章中有些关于逻辑回归的东西（例如符号标记、函数的具体由来及其的一些性质）还请参考之前的两篇文章，这里就不在赘述了：
《机器学习笔记04：逻辑回归(Logistic regression)、分类(Classification)》
《机器学习笔记05：正则化(Regularization)、过拟合(Overfitting)》

支持向量机的应用很广泛，在工业、计算机行业和学术界都有比较多的应用，而且它应该是最常用的分类器。所以喜欢 Machine Learning 的童鞋们应该好好掌握 SVM 这一大杀器。

一、最大间隔分类(Large Margin Classification)

1.优化目标(Optimization Objective)

在了解 SVM 之前，我们先来看看之前的逻辑回归的误差函数(Cost function)：

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] = - 1 m \sum i = 1 m [y (i) l o g (1 1 + e - θ T x ( i )) + (1 - y (i)) l o g (1 - 1 1 + e - θ T x ( i ))]

$\begin{aligned} J(\theta) &=-\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} log(h_\theta(x^{(i)})) +(1-y^{(i)}) log(1-h_\theta(x^{(i)})) \right] \\ &= -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}) +(1-y^{(i)}) log(1-\frac{1}{1+e^{-\theta^Tx^{(i)}}}) \right] \end{aligned}$
把求和符号之外的负号放到求和部分里面，上式就等价于下面这个式子：

J (θ) = 1 m \sum i = 1 m [- y (i) l o g (1 1 + e - θ T x ( i )) - (1 - y (i)) l o g (1 - 1 1 + e - θ T x ( i ))] = 1 m \sum i = 1 m [y (i) (- l o g (1 1 + e - θ T x ( i ))) + (1 - y (i)) (- l o g (1 - 1 1 + e θ T x ( i )))] (1 - 1)

$\begin{aligned} J(\theta) &= \frac{1}{m} \sum_{i=1}^m \left[ -y^{(i)} log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}) -(1-y^{(i)}) log(1-\frac{1}{1+e^{-\theta^Tx^{(i)}}}) \right] \\ &=\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} (-log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}))+(1-y^{(i)}) (-log(1-\frac{1}{1+e^{\theta^Tx^{(i)}}})) \right] \end{aligned} \quad\quad (1-1)$
回忆一下，在逻辑回归中，假设函数是

hθ(x)=g(z)=11+e−z=11+e−θTX $h_\theta(x)=g(z)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-\theta^TX}}$ ，其图像如下图所示：

当我们用逻辑回归来进行分类的时候，一般有

y = {10 if h θ (x) \geq 0.5; if h θ (x) < 0.5 .

$y=\begin{cases} 1 & \text{if $h_\theta(x)\ge 0.5$} \text{ ;} \\ 0 & \text{if $h_\theta(x)< 0.5$} \text{ .} \end{cases}$
即当

θTX≥0 $\theta^TX \ge 0$ 时，预测为 1，当

θTX<0 $\theta^TX < 0$ 时，预测为 0。再回到式子 (1-1)，我们可以画出

(−log(11+e−θTx(i))) $(-log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}))$ 和

(−log(1−11+eθTx(i))) $(-log(1-\frac{1}{1+e^{\theta^Tx^{(i)}}}))$ 的图像，分别如下面的左图和右图中的黑色曲线所示（至于图像为什么是这种形状，读者可以不难根据其公式画出）：

而在支持向量机中，我们不仅要求 $\theta^TX \ge 0$ 或 $\theta^TX < 0$ ，还要求 $\theta^TX >> 0$ 或 $\theta^TX << 0$ 的时候才分别预测 $y=1$ 或 $y=0$ ，一般可以取1作为界限。我们令：

C o s t 1 (θ T x (i)) = m a x (0, K (1 - z)) C o s t 0 (θ T x (i)) = m a x (0, K (1 + z))

$Cost_1(\theta^Tx^{(i)})=max(0,K(1-z)) \\ Cost_0(\theta^Tx^{(i)})=max(0,K(1+z))$
上面这两个函数分别对应于左图和右图中紫红色的分段线。我们用

Cost1(θTx(i)) $Cost_1(\theta^Tx^{(i)})$ 和

Cost0(θTx(i)) $Cost_0(\theta^Tx^{(i)})$ 分别替换

(−log(11+e−θTx(i))) $(-log(\frac{1}{1+e^{-\theta^Tx^{(i)}}}))$ 和

(−log(1−11+eθTx(i))) $(-log(1-\frac{1}{1+e^{\theta^Tx^{(i)}}}))$ 之后得到：

J (θ) = 1 m \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))]

$\begin{aligned} J(\theta) &=\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)}Cost_1(\theta^Tx^{(i)})+(1-y^{(i)})Cost_0(\theta^Tx^{(i)})\right] \end{aligned}$
加上正则化项后为：

J (θ) = 1 m \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))] + λ 2 m \sum j = 1 n θ 2 j

$\begin{aligned} J(\theta) &=\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)}Cost_1(\theta^Tx^{(i)})+(1-y^{(i)})Cost_0(\theta^Tx^{(i)})\right] \end{aligned}+\frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2$
在 SVM 中，我们不用除以样本数量

m $m$ ，并且两个求和项都除以

λ $\lambda$ ，并记

C=1λ $C=\frac{1}{\lambda}$ 。所以支持向量机的误差函数为：

J (θ) = C \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))] + 1 2 \sum j = 1 n θ 2 j

$\begin{aligned} J(\theta) &=C \sum_{i=1}^m \left[ y^{(i)}Cost_1(\theta^Tx^{(i)})+(1-y^{(i)})Cost_0(\theta^Tx^{(i)})\right] \end{aligned}+\frac{1}{2}\sum_{j=1}^n \theta_j^2$
其实，参数

C $C$ 和逻辑回归中的

λ $\lambda$ 的功能是一样的，同样是为了控制 欠拟合与 过拟合之间的平衡。从 SVM 的误差函数中我们可以看出，如果要最小化误差，即使第一个求和项为0。即最优化支持向量机，就需要使得参数

θ $\theta$ 对于训练集中的每组样本都要达到：当

y=1 $y=1$ 时

θTx(i)≥1 $\theta^Tx^{(i)} \ge1$ ；当

y=0 $y=0$ 时

θTx(i)≤−1 $\theta^Tx^{(i)} \le -1$ 。另外，后面的求和项，即惩罚项（正则化项），是为了使训练得到的

θ $\theta$ 比较的小，如此一来，我们对

θTx(i) $\theta^Tx^{(i)}$ 的约束条件就造成了最大间隔分类的效果。下面会具体解释最大间隔。

2.什么是大间隔(Large Margin Intuition)

都说 SVM 是一个大间隔分类器，现在就来讲一讲什么是大间隔。

在误差函数 $J(\theta)$ 中，如果我们将 $C$ 的值设置为一个非常大的数，那么误差函数将会给 $\theta$ 加以约束使得

A = \sum i = 1 m [y (i) C o s t 1 (θ T x (i)) + (1 - y (i)) C o s t 0 (θ T x (i))] = 0

$A=\sum_{i=1}^m \left[ y^{(i)}Cost_1(\theta^Tx^{(i)})+(1-y^{(i)})Cost_0(\theta^Tx^{(i)})\right]=0$ 其原因涉及到凸二次规划以及概率论中的先验概率分布，这里不做深究。（ 留个位置在这里，以后写了贴链接）。

那么，现在反过来想，既然 $C$ 非常大，就会使得 $A=0$ ，要使得 $A=0$ ，我们就需要在训练过程中对 $\theta$ 做如下约束：

1）如果 $y=1$ ，要求 $\theta^TX \ge 1$ ，（不仅是 $\theta^TX \ge 0$ ）；
2）如果 $y=0$ ，要求 $\theta^TX \le -1$ ，（不仅是 $\theta^TX<0$ ）。

（回忆一下前面，上面这个约束以 1 作为阈值是因为 $Cost_1(\theta^Tx^{(i)})=max(0,K(1-z))\,,Cost_0(\theta^Tx^{(i)})=max(0,K(1+z))$ ，所以上面的约束以 1 作为阈值才能使 $A=0$ ）。

好了，通过设置非常大的正则化参数 $C$ ，再加上上面对参数 $\theta$ 的约束，我们使得 $A=0$ ，那么，误差函数 $J(\theta)$ 可以简化为如下形式：

J (θ) = C \cdot 0 + 1 2 \sum j = 1 n θ 2 j = 1 2 \sum j = 1 n θ 2 j

$J(\theta)=C\cdot0+\frac{1}{2} \sum_{j=1}^n\theta_j^2=\frac{1}{2} \sum_{j=1}^n\theta_j^2$
在 SVM 的训练过程中，会最小化上面这个误差函数（此文章不包括SVM的训练，SVM 的训练涉及到较多的数学知识和一些数值计算技巧，而且也不推荐大家自己写代码来训练 SVM，有一个非常好的库叫做 libsvm，可以直接调用接口进行训练自己的 SVM）。

和逻辑回归不同的是，如下图所示，SVM 的决策边界会最大限度地离正样本和负样本尽可能地远。决策边界和离决策边界最近的那个样本之间的距离就称为 间隔(margin)。这也正是 SVM 被称为大间隔分类器的原因。

需要注意的是，仅当

C $C$ 非常大是，才会有“大间隔分类”的效果。同时，如果有一些样本太偏离大多数样本的总体位置，可以减小

C $C$ 的值来防止过拟合。

可能对于上面这个不太像解释的解释还是感到很疑惑，其实大间隔就如上图中所示的一样，支持向量机的决策边界会在正负样本之间离正负样本尽可能的远。下面来看其中的数学原理。

3.最大间隔分类背后的数学原理(Mathematics Behind Large Margin Classification)

先来看看什么是向量的内积。假如我们有两个向量:

u = [u 1 u 2], v = [v 1 v 2]

$u=\left[\begin{matrix}u_1\\u_2\end{matrix}\right],\quad v=\left[\begin{matrix}v_1\\v_2\end{matrix}\right]$
我们记向量

v $v$ 的长度为

‖v‖ $\Arrowvert v\Arrowvert$ ，它表示从原点到点

(v1,v2) $(v_1,v_2)$ 的直线距离。由毕达哥拉斯定理可知，向量

v $v$ 的长度为

v=v21+v22‾‾‾‾‾‾‾√ $v=\sqrt{v_1^2+v_2^2}$ 。我们知道

vT⋅u=‖v‖cosα‖u‖ $v^T\cdot u=\Arrowvert v\Arrowvert\cos\alpha\Arrowvert u\Arrowvert$ ，其中

α $\alpha$ 为向量

v $v$ 和

u $u$ 的夹角：

如上图，我们把

v $v$ 在

u $u$ 上的投影

‖v‖cosα $\Arrowvert v\Arrowvert cos\alpha$ 记为

p $p$ 。所以：

vT⋅u=‖v‖cosα‖u‖=p⋅‖u‖=u1v1+u2v2 $v^T\cdot u=\Arrowvert v\Arrowvert\cos\alpha\Arrowvert u\Arrowvert=p\cdot \Arrowvert u\Arrowvert=u_1v_1+u_2v_2$ ，需要注意的是，如果它们的夹角大于 90°，那么向量的内积将为负值，因为

cosα<0 $cos\alpha<0$ 。

内积就讲这么多，相信大家在高中都学过。现在我们回到上一节，回忆一下，在使得 $A=\sum_{i=1}^m \left[ y^{(i)}Cost_1(\theta^Tx^{(i)})+(1-y^{(i)})Cost_0(\theta^Tx^{(i)})\right]=0$ 之后，误差函数简化为 $J(\theta)=C\cdot0+\frac{1}{2} \sum_{j=1}^n\theta_j^2=\frac{1}{2} \sum_{j=1}^n\theta_j^2$ ，可以改写为：

J (θ) = 1 2 \sum j = 1 n θ 2 j = 1 2 (θ 21 + θ 22 + . . . + θ 2 n) = 1 2 (θ 21 + θ 22 + . . . + θ 2 n ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt) 2 = 1 2 ‖ θ ‖ 2

$\begin{aligned} J(\theta)&=\frac{1}{2} \sum_{j=1}^n\theta_j^2 \\ &= \frac{1}{2}(\theta_1^2+\theta_2^2+...+\theta_n^2) \\ &= \frac{1}{2}(\sqrt{\theta_1^2+\theta_2^2+...+\theta_n^2})^2 \\ &= \frac{1}{2}\Arrowvert\theta\Arrowvert^2 \end{aligned}$ 即，我们要最小化参数向量

θ $\theta$ 的长度。同样地，我们有:

x (i) θ T = p (i) \cdot ‖ θ ‖ = θ 1 x (i) 1 + θ 2 x (i) 2 + . . . + θ n x (i) n

$x^{(i)}\theta^T=p^{(i)}\cdot\Arrowvert\theta\Arrowvert=\theta_1x_1^{(i)}+\theta_2x_2^{(i)}+...+\theta_nx_n^{(i)}$ 注意，我们一般把样本特征向量

x(i) $x^{(i)}$ 投影到参数向量

θ $\theta$ 上。所以，我们在上一节中提到的约束条件就变为：

1）如果 $y=1$ ，要求 $p^{(i)}\cdot\Arrowvert\theta\Arrowvert \ge 1$ ；
2）如果 $y=0$ ，要求 $p^{(i)}\cdot\Arrowvert\theta\Arrowvert \le -1$ 。

由于在训练过程中， $\theta$ 会变得很小，而又必须满足上述的约束条件，所以 $p^{(i)}=\Arrowvert x^{(i)}\Arrowvert cos\alpha$ 将会变得尽可能的大，因为 $\Arrowvert x^{(i)}\Arrowvert$ 为常量，所以在训练过程中，参数向量 $\theta$ 与各个训练样本特征值向量 $x^{(i)}$ 的夹角会越来越小。我们知道，训练完成时，决策边界是一条满足 $\theta_1x_1+\theta_2x_2+...+\theta_nx_n=0$ 的曲线或者直线，所以向量 $\theta$ 和各个训练样本 $x^{(i)}$ 是尽可能保持垂直的（任意维数），从而导致决策边界会离正负样本尽可能地远。（读者可以自行画图体验一下。）