斯坦福机器学习笔记六

最新推荐文章于 2021-06-29 00:35:26 发布

羊和咩咩

最新推荐文章于 2021-06-29 00:35:26 发布

阅读量664

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习笔记文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/a_yangfh/article/details/71123752

机器学习笔记专栏收录该内容

12 篇文章

订阅专栏

支持向量机

与逻辑回归和神经网络相比，支持向量机（SVM）在学习复杂的非线性方程时会提供一种更为清晰、更为强大的方式。

1、支持向量机的代价函数

从逻辑回归的代价函数来推导支持向量机的代价函数，已知逻辑回归的代价函数如下：

$\text{J}\left( \text{ }\!\!\theta\!\!\text{ } \right)=-\frac{1}{m}\underset{i=1}{\overset{m}{\mathop \sum }}\,\left[ {{y}^{\left( i \right)}}\log \left( {{h}_{\theta }}\left( {{x}^{\left( i \right)}} \right) \right)+\left( 1-{{y}^{\left( i \right)}} \right)\log \left( 1-{{h}_{\theta }}\left( {{x}^{\left( i \right)}} \right) \right) \right]$

由于参数 1/m 不影响代价函数大小的比较，这里只看 Cost 函数：

Cost = $-\left( \text{y }\!\!~\!\!\text{ log}{{\text{h}}_{\text{ }\!\!\theta\!\!\text{ }}}\left( \text{x} \right)+\left( 1-\text{y} \right)\log \left( 1-{{\text{h}}_{\text{ }\!\!\theta\!\!\text{ }}}\left( \text{x} \right) \right) \right)$

= $-\text{y }\!\!~\!\!\text{ }\log \frac{1}{1+{{\text{e}}^{-{{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}}}}-\left( 1-\text{y} \right)\log \left( 1-\frac{1}{1+{{\text{e}}^{-{{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}}}} \right)$

当y=1时，这时需要 ${{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}\gg 0$ ，Cost 函数中的第二项为 0，Cost= $-\text{ }\!\!~\!\!\text{ }\log \frac{1}{1+{{\text{e}}^{-{{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}}}}$ ；

当y=0时，这时需要 ${{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}\ll 0$ ，Cost 函数中的第一项为 0，Cost= $-\text{ }\!\!~\!\!\text{ }\log \left( 1-\frac{1}{1+{{\text{e}}^{-{{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}}}} \right)\text{ }\!\!~\!\!\text{ }$ 。

$\text{z}={{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}$ 和 Cost 函数的曲线如下：

这里写图片描述

图中的黑线是逻辑回归 Cost 函数的曲线，在此基础上修改曲线得到支持向量机的 Cost 函数。

如左图所示，使用两条直线来近似黑线，两条直线的拐点是z=1这一点，标记为 $\text{Cos}{{\text{t}}_{1}}\left( \text{z} \right)$ ；右图也是使用两条直线来近似黑线，两条直线的拐点是z=-1这一点,标记为 $\text{Cos}{{\text{t}}_{0}}\left( \text{z} \right)$ ，由此得到粉线是支持向量机的 Cost 函数的曲线。可以看出粉色的线与黑色的线非常类似，却更简洁，所以它可以做和逻辑回归中类似的事情，也能在计算上有很大的优势。不需要考虑粉色线函数表达形式，这里只是讲解它近似的思想。

因此我们得到支持向量机的代价函数：

$\underset{\theta }{\mathop{\min }}\,C\underset{i=1}{\overset{m}{\mathop \sum }}\,\left[ {{y}^{\left( i \right)}}cos{{t}_{1}}\left( {{\theta }^{T}}{{x}^{\left( i \right)}} \right)+\left( 1-{{y}^{\left( i \right)}} \right)cos{{t}_{0}}\left( {{\theta }^{T}}{{x}^{\left( i \right)}} \right) \right]+\frac{1}{2}\underset{j=1}{\overset{n}{\mathop \sum }}\,\theta _{j}^{2}$

这里的参数 C 没有明确的定义，可以把它考虑成 1⁄λ ，它和 1⁄λ 扮演相同的角色。因此，它的选择也和 1⁄λ 类似。当 C 值过大时，会导致过拟合的问题，使支持向量机达不到更好的效果。当 C 选值比较合适时，它可以忽略掉一些异常点的影响得到更好的决策界。甚至当数据不是线性可分的时候，支持向量机也可以给出好的结果。

和逻辑回归的输出概率不同，当最小化代价函数得到参数θ 时，支持向量机是使用θ 来直接预测y的值是1还是0。当θ^T X 大于等于0时，假设函数会预测y=1。

这里写图片描述

支持向量机也被称为大间距分类器，为了获得更大的间距，这里使用假设函数预测 y 等于 1 还是 0 的决策边界不再是 ${{\text{ }\!\!\theta\!\!\text{ }}^{\text{T}}}\text{X}=0$ ，而是进行了进一步的优化。

这里写图片描述

这是 Cost 函数的图像，我们可以直观的看到，当 z≥1 时， $\text{Cos}{{\text{t}}_{1}}\left( \text{z} \right)=0$ ；当z≤-1 时， $\text{Cos}{{\text{t}}_{0}}\left( \text{z} \right)=0$ 。

因此这里改变假设函数为：

这样，最后的到的决策边界会有大一点的间距，会比较有趣。

2、核函数

为了选取更好的更合适的特征向量，引入了核函数，这里采用的是高斯核函数。新的特征向量为：

${{f}_{1}}=similarity\left( x,{{l}^{\left( 1 \right)}} \right)=e\left( -\frac{\|x-{{l}^{\left( 1 \right)}}\|^{2}}{2{{\sigma }^{2}}} \right)$

其中 $\|x-{{l}^{\left( 1 \right)}}\|^{2}=\underset{j=1}{\overset{n}{\mathop \sum }}\,{{\left( {{x}_{j}}-l_{j}^{\left( 1 \right)} \right)}^{2}}$ ，为训练样本 X 中的所有特征与 l 之间的距离和。l 是标记点，这里直接将所有的训练样本选为标记点。

如果训练样本与标记点的距离近似为0，新的特征 $\text{f}={{\text{e}}^{-0}}=1$ ；
如果训练样本与标记点的距离比较远，新的特征 $\text{f}={{\text{e}}^{-较大值}}=0$ 。

上式中的 ${{\text{ }\!\!\sigma\!\!\text{ }}^{2}}$ 的值决定了随着x的改变 f 值改变的速率。

这里写图片描述

由上图可以看到，当 ${{\text{ }\!\!\sigma\!\!\text{ }}^{2}}$ 较大时，等高线的圆会变得比较发散，f值的改变速率会变慢，导致高方差、过拟合。当 ${{\text{ }\!\!\sigma\!\!\text{ }}^{2}}$ 较小时，等高线的圆会变得比较密集，会导致高偏差、欠拟合。

这里给出了使用核函数构造新的特征向量后的假设函数和代价函数：

$\underset{\theta }{\mathop{\min }}\,C\underset{i=1}{\overset{m}{\mathop \sum }}\,\left[ {{y}^{\left( i \right)}}cos{{t}_{1}}\left( {{\theta }^{T}}{{f}^{\left( i \right)}} \right)+\left( 1-{{y}^{\left( i \right)}} \right)cos{{t}_{0}}\left( {{\theta }^{T}}{{f}^{\left( i \right)}} \right) \right]+\frac{1}{2}\underset{j=1}{\overset{n=m}{\mathop \sum }}\,\theta _{j}^{2}$