吴恩达机器学习笔记七支持向量机svm

最新推荐文章于 2024-04-15 15:58:40 发布

qsdzxp

最新推荐文章于 2024-04-15 15:58:40 发布

阅读量708

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qsdzxp/article/details/82703173

机器学习专栏收录该内容

12 篇文章

订阅专栏

这篇博客详细介绍了吴恩达机器学习课程中的支持向量机（SVM）。首先，解释了线性SVM的代价函数为何设计成特定形式，特别是为何当z=1和-1时代价为零。接着，探讨了最大化分类间距的直观理解，并阐述了优化目标。此外，还讨论了非线性SVM的概念，包括核函数的使用及其在SVM中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 线性svm

1.1 代价函数

吴恩达的svm课程中由logisitic回归讲起，将logistic回归中的代价函数转换成图中的形式。刚开始的时候我自己很疑惑这个地方：

为什么代价函数要变成这个样子
又为什么代价为零的地方要是 $z=1和-1$ ,不是 $z=2,3,4……$

直到好好研究了一番svm的几何意义才明白这样做的意义，下面一一道来。

1.1.1 代价函数为什么要变成这个样子

代价函数

我们假设二维平面，训练数据散点的坐标为 $x=(x_1,x_2)^T$ ，我们要明确两个地方：

svm的目标是寻找一条支持最大分类间隔的直线 $\theta^{T}x=0$ ；
我们不要忘记代价函数中的z=θTx，这样，我们就可以将代价函数和几何意义联系起来了：
- $y=1$ 时， $\theta^{T}x>=1$ ，也就是处于下图中的直线 $w^Tx+b=1$ 的上方，认为判断正确，代价为零。 $\theta^{T}x<1$ 时，位于直线 $w^Tx+b=1$ 的下方， $\theta^{T}x$ 的值越小，离直线 $w^Tx+b=1$ 越远，代价越大。
- $y=-1$ 时， $\theta^{T}x<=-1$ ，也就是处于下图中的直线 $w^Tx+b=-1$ 的下方，认为判断正确，代价为零。 $\theta^{T}x>-1$ 时，位于直线 $w^Tx+b=-1$ 的上方， $\theta^{T}x$ 的值越大，离直线 $w^Tx+b=-1$ 越远，代价越大。

最大间隔

1.1.2 为什么代价为零的地方要是 $z=1和-1$

简便起见，这里用 $w^Tx+b$ 表示直线。我们要寻找的 $w^Tx+b=1或-1$ 这两条直线是由数据所决定的，也就是说，在数据确定的情况下，这两条支持直线是确定的。那么显然 $w$ 是会随着 $wx+b =1,2,…$ 来调整的，所以 $z=1$ 不会影响我们的目标。

1.2 间距最大化的直观理解

显然，蓝色的支持直线有一个安全间距，而绿色和红色支持直线几乎是没有的。
这里写图片描述

1.3 优化目标

min θ C \sum i = 1 m [y (i) c o s t 1 (θ T x (i)) + (1 - y (i)) c o s t 0 (θ T x (i))] + 1 2 \sum i = 1 n θ 2 j

${\min_\theta}C \sum_{i=1}^{m} [y^{(i)}cost_1(\theta^Tx^{(i)}) +(1-y^{(i)})cost_0(\theta^Tx^{(i)}) ] +\frac{1}{2}\sum_{i=1}^{n}\theta_j^2$

如果 $y=1$ ，我们希望 $\theta^{T}x>=1$ ，不仅仅是 $>=0$
如果 $y=0$ ，我们希望 $\theta^{T}x<=-1$ ，不仅仅是

这就相当于构建出了一个安全间距。因此，优化目标可以变换为

min θ 1 2 \sum i = 1 n | | θ j | | 2

${\min_\theta}\frac{1}{2}\sum_{i=1}^{n}||\theta_j||^2$

θ T x (i) > 1, i f y (i) = 1 θ T x (i) < - 1, i f y (i) = 0

$\quad \theta^Tx^{(i)}>1,if \ y^{(i)}=1\\ \quad \theta^Tx^{(i)}<-1,if \ y^{(i)}=0$ 根据向量内积的几何意义，此优化的目标，是寻找在 $x^(i)$ 上的投影满足条件的 $\theta$ 中模值最小的那个 $\theta$ 。并且，由前面的分析可知， $\theta$ 最小的时候安全间距是最大。

2. 非线性svm

2.1 核函数

核函数用来描述两个向量之间的相似度。高斯核函数的表达式如下

f g u a s s = e x p (- | | x - l | | 2 2 σ 2)

$f_{guass}=exp(-\frac{||x-l||^2}{2\sigma^2})$

2.2 核函数在svm中的应用

在线性svm中，我们直接用 $\theta^Tx=0$ 作为分界直线。但是在非线性可分的情况下，我们就需要引入二次项了。在二维的情况下，我们可以人工将二次项都表示出来，但是在高维的时候仍然人工表示是不太现实的。
我们注意到，在上面提到的核函数中，是含有经过映射的二次项的。并且，我们可以将训练样本的所有数据作为参考 $l$ ，即用与训练样本数据的相似度来刻画出我们所要寻找的非线性分界曲线。
采用核函数的非线性svm的代价函数表达式如下：