吴恩达机器学习课程-第七周

原创于 2022-06-09 16:54:16 发布 · 388 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #支持向量机 #核函数

机器学习专栏收录该内容

11 篇文章

订阅专栏

本文详细介绍了支持向量机SVM的优化目标，通过对比逻辑回归阐述了SVM的大边界思想，解释了SVM为何被称为大间距分类器。同时，讨论了核函数的作用，特别是高斯核函数在构建新特征上的应用，并分析了C和σ参数对模型的影响。最后，提出了SVM在实际使用中的选择准则，并总结了SVM在不同数据情况下的适用性。

1.支持向量机SVM

1.1 优化目标

在逻辑回归中，针对一个样本的损失函数如下：

$−y(i)log(hθ(x(i))+(1−y(i))log(1−hθ(x(i))=−y(i)log(11+e−θT⋅x)+(1−y(i))log(1−11+e−θT⋅x)-y^{(i)}log(h_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)})=-y^{(i)}log(\frac{1}{1+e^{-\theta^T·x}})+(1-y^{(i)})log(1-\frac{1}{1+e^{-\theta^T·x}})$

假设以 $z=θT⋅xz=\theta^T·x$ 为横坐标，上述损失函数的值为纵坐标，当 $y$ 取不同值时可以画出不同的图像：

在这里插入图片描述

上图中的蓝色曲线为原始的图像，而紫红色的直线是与曲线很相似的直线。如果使用新的代价函数表达紫红色的线，则可以表示为： $min⁡θC∑i=1m[y(i)cost⁡1(θTx(i))+(1−y(i))cost⁡0(θTx(i))]+12∑i=1nθj2\min\limits_{\theta} C \sum_{i=1}^{m}\left[y^{(i)} \operatorname{cost}_{1}\left(\theta^{T} x^{(i)}\right)+\left(1-y^{(i)}\right) \operatorname{cost}_{0}\left(\theta^{T} x^{(i)}\right)\right]+\frac{1}{2} \sum_{i=1}^{n} \theta_{j}^{2}$

转换后的代价函数即支持向量机的代价函数。其中 $cost1(θTx(i))=−loghθ(x(i)),cost0(θTx(i))=−log(1−hθ(x(i)))cost_1(\theta^Tx^{(i)})=-logh_{\theta}(x^{(i)}),cost_0(\theta^Tx^{(i)})=-log(1-h_{\theta}(x^{(i)}))$ ，分别表示两个子图中紫红色的线，且上式中把前后两个部分中的常量 $1m\frac{1}{m}$ 以及正则化项中的 $λ\lambda$ 删除，改为第一项中的 $C$ ，这是SVM常用表达形式，实际含义并没有改变：原来的式子可以理解为 $A+λBA+\lambda B$ ，如果 $λ\lambda$ 值较大说明给 $B$ 在代价函数的权重较大；现在修改为 $C A + B$ ，当 $C$ 的值较小时，变相增加了 $B$ 在代价函数中的权重，当 $C=1λC=\frac{1}{\lambda}$ 时，两个式子在梯度更新时会到相同的值

1.2 大边界的直观理解

下图是SVM代价函数的图像。当 $y = 1$ 时(对应左子图)，为了使损失值最小需要 $z=θTx≥1z=\theta^Tx \ge 1$ ；当 $y = 0$ 时(对应右子图)，为了使损失值最小需要 $z=θTx≤−1z=\theta^Tx \le -1$ 。但是在逻辑回归中当 $y = 1$ 时，仅需要 $θTx≥0\theta^Tx \ge 0$ 即可将样本正确归类为正样本；当 $y = 0$ 时，仅需要 $θTx<0\theta^Tx \lt 0$ 即可将样本正确归类为负样本：

在这里插入图片描述

从上述分析可以看出SVM的要求更高，需要一个安全间距

当把 $C$ 值设置的很大时，此时需要找出使得第一项为0的参数 $θ\theta$ 。假设选择了能使得第一项为0的参数 $θ\theta$ ，则必然要遵循约束条件，即当 $y = 1$ 时， $θTx≥1\theta^Tx \ge 1$ 以及当 $y = 0$ 时， $θTx≤−1\theta^Tx \le -1$ ：

在这里插入图片描述

为什么SVM被称为大间距分类器?对于下图中的数据集，可以使用多条直线将正负样本分开，如图中紫红色和绿色的直线。而黑线相较于这两条线直观上把两类样本分开的更好，因为黑线与样本间有着更大的最短距离(离两类样本存在两个距离值，其中较小的值)，意味着SVM具有鲁棒性，这个距离被称为SVM的间距：

在这里插入图片描述

当将 $C$ 设置的很大时，异常点会严重影响决策边界。在下图中，当 $C$ 较大时，黑线是未加入左下角的红色叉(异常点)得到的决策边界。加入了异常点后，为了将样本用最大间距分开，决策边界由黑线变为紫红色的线，这显然不太好(可以理解为过拟合)。所以当 $C$ 设置的值没有很大时，可以忽略异常点的影响，得到类似黑线这样较好的决策边界：

在这里插入图片描述

1.3 大边界分类背后的数学

首先回顾向量内积的直观理解，对于两个向量 $u=[u_1,u_2]^T,v=[v1,v2]^T$ , $p$ 为 $v$ 在 $u$ 上的投影( $p$ 也是有正负值的，但不是向量)，则 $u^Tv=p·||u||=u_1v_1+u_2v_2$ ：

在这里插入图片描述

下面通过内积性质理解SVM的目标函数：

在这里插入图片描述

首先令 $θ0=0\theta_0=0$ ，且将特征数设置为 $n = 2$ ，于是将目标函数转换为:

$min⁡θ12∑j=1nθj2=12(θ12+θ22)=12(θ12+θ22)2=12∣∣θ∣∣2\min\limits_\theta\frac{1}{2}\sum_{j=1}^n\theta_j^2=\frac{1}{2}(\theta_1^2+\theta_2^2)=\frac{1}{2}(\sqrt{\theta_1^2+\theta_2^2)}^2=\frac{1}{2}||\theta||^2$

通过前面对内积的直观介绍，约束条件 $θTx(i)=p(i)∣∣θ∣∣\theta^Tx^{(i)}=p^{(i)}||\theta||$ ， $p^{(i)}$ 表示 $x^{(i)}$ 在 $θ\theta$ 上的投影。因此目标函数如下所示：

在这里插入图片描述

在下面左子图中的两类样本，假设以绿线作为决策边界(即 $θTx=0\theta^Tx=0$ ，这里绿线之所以经过原点是因为 $θ0=0\theta_0=0$ )，则蓝色向量 $θ\theta$ 与绿线正交，所以一个决策边界对应着一个参数 $θ\theta$ 向量。假设红叉为正样本，蓝圈为负样本，则图中正样本 $x^{(1)}$ 和负样本 $x^{(2)}$ 在 $θ\theta$ 上的投影长度十分的短，要满足 $p(i)∣∣θ∣∣≥1p^{(i)}||\theta|| \ge 1$ 和 $p(i)∣∣θ∣∣≤−1p^{(i)}||\theta|| \le -1$ 则需要 $∣∣θ∣∣||\theta||$ 的值要很大，但是目标函数是希望 $∣∣θ∣∣||\theta||$ 的值尽量的小，所以 $θ\theta$ 的方向不好(即决策边界的选择不好)。

SVM会根据目标函数选择下面右子图中的决策边界，因为该边界让 $∣∣θ∣∣||\theta||$ 变得更小：

在这里插入图片描述

1.4 核函数Ⅰ

为了获取下图中的判定边界，模型可能是 $h(θ)=θ0+θ1x1+θ2x2+θ3x1x2+...h(\theta)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+...$ 的形式，此时假设 $f_1=x_1,f_2=x_2,f_3=x_1x_2,...$ ，则 $h(θ)=θ0+θ1f1+θ2f2+...+θnfnh(\theta)=\theta_0+\theta_1f_1+\theta_2f_2+...+\theta_nf_n$ 。除了对原特征进行组合外，是否有更好的方法构造 $f_1,f_2,...$ ？这就需要核函数

假设给定一个样本 $x$ ，利用 $x$ 和预先选定的标记 $l^{(1)}、l^{(2)}、l^{(3)}$ 的近似程度作为 $f_1、f_2、f_3$ ：

在这里插入图片描述

$f1=similarity⁡(x,l(1))=e(−∥x−l(1)∥22σ2)f_{1}=\operatorname{similarity}\left(x, l^{(1)}\right)=e\left(-\frac{\left\|x-l^{(1)}\right\|^{2}}{2 \sigma^{2}}\right)$

$f2=similarity⁡(x,l(2))=e(−∥x−l(2)∥22σ2)f_{2}=\operatorname{similarity}\left(x, l^{(2)}\right)=e\left(-\frac{\left\|x-l^{(2)}\right\|^{2}}{2 \sigma^{2}}\right)$

$f3=similarity⁡(x,l(3))=e(−∥x−l(3)∥22σ2)f_{3}=\operatorname{similarity}\left(x, l^{(3)}\right)=e\left(-\frac{\left\|x-l^{(3)}\right\|^{2}}{2 \sigma^{2}}\right)$

其中， $similarity⁡(x,l(i))\operatorname{similarity}\left(x, l^{(i)}\right)$ 就是核函数(该函数是高斯核函数)，通常采用 $k(x,l^{(i)})$ 表示。当 $x$ 与标记 $l^{(i)}$ 的距离越近，则特征 $f_i$ 近似于 $e^{-0}=1$ ；当 $x$ 与标记 $l^{(i)}$ 的距离越远，则特征 $f_i$ 近似于 $e^{-bignum}=0$ 。从下图中可以直观理解，当 $l^{(1)}=[3,5]^T$ 时，如果 $x=[3,5]^T$ ，则 $z$ 轴最高( $z$ 轴表示 $f_1$ 的值， $x$ 和 $y$ 轴分别表示 $x_1$ 和 $x_2$ )。另外 $σ\sigma$ 的值会控制 $f_1$ 的值随 $x$ 的改变而改变的速率：

在这里插入图片描述

那么核函数如何确定决策边界？假设在 $hθ(x)=θ0+θ1f1+θ2f2+θ3f3h_\theta(x)=\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3$ ，此时参数已知，分别为 $θ0=0.5,θ1=θ2=1,θ3=0\theta_0=0.5,\theta_1=\theta_2=1,\theta_3=0$ 。对于下图中的紫红色样本点，可以看出它离 $l^{(1)}$ 较近，离 $l^{(2)}$ 和 $l^{(3)}$ 较远，所以 $f1≈1,f2≈0,f3≈0f_1 \approx 1,f_2 \approx 0,f_3 \approx 0$ ，所以 $hθ(x)>0h_\theta(x)>0$ ，即预测该样本点为正样本点。同理预测绿色样本点为正样本点，青蓝色样本点为负样本点，最终得出红色的决策边界。可以看出在上述计算中并没有使用到样本的特性值 $x_1、x_2、x_3$ ，而是使用核函数计算出的新特征 $f_1、f_2、f_3$ ：

在这里插入图片描述

1.5 核函数Ⅱ

在1.4节中只是直观介绍了核函数的概念和作用，但是还不知道如何选取标记 $l^{(i)}$ 。通常是根据训练集的数量选择标记数，假设有 $m$ 个样本，则选取 $m$ 个标记，这样得到的新特征是建立在单个样本点和其他所有样本点间的距离上的。假如将每一个样本点作为一个标记，则新特性可以表示为：

在这里插入图片描述

所以SVM的目标函数转换为 $min⁡θC∑i=1m[y(i)cost⁡1(θTf(i))+(1−y(i))cost⁡0(θTf(i))]+12∑i=1n=mθj2\min\limits_{\theta} C \sum_{i=1}^{m}\left[y^{(i)} \operatorname{cost}_{1}\left(\theta^{T} f^{(i)}\right)+\left(1-y^{(i)}\right) \operatorname{cost}_{0}\left(\theta^{T} f^{(i)}\right)\right]+\frac{1}{2} \sum_{i=1}^{n=m} \theta_{j}^{2}$ ，并且在计算 $∑i=1n=mθj2=θTθ\sum_{i=1}^{n=m} \theta_{j}^{2}=\theta^T\theta$ 时会使用 $θTMθ\theta^T M \theta$ 进行代替，由于简化计算，其中 $M$ 随着核函数的不同而变化