第十三章支持向量机

最新推荐文章于 2023-09-26 09:06:34 发布

今天我要睡午觉

最新推荐文章于 2023-09-26 09:06:34 发布

阅读量210

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/blzhizhuang/article/details/118307112

机器学习专栏收录该内容

16 篇文章

订阅专栏

本文详细介绍了支持向量机（SVM），从优化目标出发，探讨了大间距分类器的概念，深入讲解了SVM的数学原理、核函数的选择及其作用。此外，还对比了SVM与逻辑回归、神经网络的差异，并提供了SVM在多分类问题中的应用及参数选择策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 优化目标

下面我们将介绍一种相较于神经网络，逻辑回归在学习复杂的非线性方程时更加清晰强大的算法，它被称之为支持向量机(Support Vector Machine)。

下面将从逻辑回归开始演示支持向量机的推导过程：

上图是Logistic回归的代价函数，观察函数我们会发现，每增加一个样本，代价函数都会增加

当y=1时，如上图左图所示的增量，图中紫色部分是我们添加的一条类似于Logistic回归的直线，之所以这样做，是为了保证当z>1时预测精度足够高；当y=0时，如上图所示的增量，其它与左侧的不同只是为了保证z<-1时的预测精度足够高。有了函数图像后，我们就有了新的支持向量机的代价函数：

支持向量机的代价函数的参数与先前的Logistic回归有些不同，首先去除了1/m的常数项，这对最小化问题并无影响；另外在Logistic回归中，代价函数是代价函数值加上正则化项，正则化项是正则化系数与参数平方和之积，但在支持向量机中，我们把参数加到了代价函数上，可以这样说，参数C取代了 $\lambda$ 的角色。

另外有一点需要注意，区别于Logistic回归输出的是概率值，支持向量机会直接输出y的取值。

2 大间距分类器

在获得代价函数之后我们就有了明确的方向：如何使代价函数更小？

正向类y=1，此时若令代价函数为零，要使z>1;负向类y=-1,此时需要让z<-1才能令代价函数值为零。

上图所展示的数据集是一个线性可分的数据集，但我们的决策边界会是中间两条彩色的线那样，看起来并不是一种很好的选择。而支持向量机不同，它会选择斜着的那条决策边界，这条边界相比于之前的决策边界与正负样本之间有更大的距离，这个距离被称之为间距，具体而言，支持向量机的做法是努力将正样本和负样本用最大的间距分开，我们的目的就是要让边界线离他最近样本点的距离，也就是支持向量机的间距尽可能的大。

现在我们在一个极端情况下考虑最小化函数问题，具体来说我们会将C置为一个非常大的值，这样做的后果是在最小化时，我们必须令让第一项为零，所以我们要优化的函数变成了

下面我们来讨论支持向量机中的参数C

参数C可以理解为支持向量机受异常点的影响程度，C越大受到的影响越大，反之越小。 $C=\frac{1}{\lambda }$ ，而 $\lambda$ 为正则化参数， $\lambda$ 增加受到异常数据影响较小，反之较大。

3 支持向量机的数学原理

上图是两个二维向量，把向量v投影至向量u上，投影长度为p， $\left | \left | u \right | \right |$ 是向量u的模，向量内积就是p* $\left | \left | u \right | \right |$ ，从代数的角度可表示为 $u_{1}v_{1}+u_{2}v_{2}$ ，根据此定义可得 $u^{T}v=u_{1}v_{1}+u_{2}v_{2}$ 。从上一节我们了解到，我们要最小化的函数为。

这里我们以偏置项为零，存在两个特征为例，研究这个函数最小化问题：

从上式不难看出，只要 $\theta$ 取到最小，最小化函数就能取得最小值。

首先要说明的一点是，决策边界与 $\theta$ 这两条线应当垂直，因为决策边界两侧分别是正向类和负向类，因此在边界上的样本点与 $\theta$ 之积应当为零，即正交。

在上图中，x投影到参数向量 $\theta$ 被设为p, $p\left \| \theta \right \|$ 等价于z,因此现在的问题转化成了尽量大的增加p的取值。左下角的决策边界很明显不是一个合理的选择，因为可以很明显的看出，两边样本点投影到 $\theta$ 的距离，也就是p的模长很小，这会导致 $\theta$ 的值增加，相反的右边的决策边界，已经确保了样本点到参数向量 $\theta$ 投影模长最长，此时 $\theta$ 的取值就可以变小了。