机器学习李宏毅 L31-Support Vector Machine

最新推荐文章于 2022-11-05 21:21:56 发布

OKgagaga

最新推荐文章于 2022-11-05 21:21:56 发布

阅读量359

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/guyanbeifei/article/details/79250271

机器学习专栏收录该内容

28 篇文章

订阅专栏

本文对比了不同类型的损失函数，包括square loss、sigmoid+cross entropy及Hinge loss，并详细介绍了它们的应用场景与优缺点。同时，文章还探讨了线性SVM及其损失函数的特点。

Loss function的比较

这里， $\delta(g(x_n) \neq \hat{y}_n)$ 不可微分，因此采用 $l(f(x_n),\hat{y}_n)$ 代替。因此可以最小化该函数即可。

采用square loss，对于函数 $\hat{y}_nf(x)$ ，其中 $\hat{y}_n=1 \ or \ -1$ 则可以规定 $l(f(x_n),\hat(y)_n)=(\hat{y}_nf(x)-1)^2$ ，最终可以转换为当 $\hat{y}_n=1$ ，则f(x)需要更好地接近1；当 $\hat{y}_n=-1$ ，则f(x)需要更好地接近-1。但是此处会造成在横坐标很大时，会造成损失函数较大，这会造成错误。

较优的loss function是采用sigmoid+cross entropy，则最后的损失函数如下：

l (f (x n), y^n) = ln (1 + exp (- y^n f (x)))

$l(f(x_n),\hat{y}_n)=\ln(1+\exp(-\hat{y}_nf(x)))$

而Hinge loss的定义如下，则当 $\hat{y}_n=1$ ，对应的f(x)>1；而当 $\hat{y}_n=11$ ，对应的f(x)<-1。

l (f (x n), y^n) = max (0, 1 - y^n f (x))

$l(f(x_n),\hat{y}_n)=\max(0,1-\hat{y}_nf(x))$

Linear SVM

对于线性SVM，f(x)定义如下，当f(x)>0，则属于一类；反之，属于另外一类。Loss Function则定义如下，采用Hinge loss，同时还会加入正则项。可以证明，最后得到的损失函数 $L(f)$ 是一个凸函数，因此可以使用GD方法。注意，该函数在某些部分不可微分，

对于Linear SVM，采用GD进行训练，如下图所示，与RELU和MAXOUT情况类似，根据输出的情况判断更新的情况。

通常的linear SVM版本如下，可以使用充分不必要条件将最大值函数进行转化，其中 $\epsilon_n$ 为slack variable。当需要最小化 $\epsilon_n$ ，则二者相等的约束关系。这是一个Quadratic programming problem（二次规划问题）。

Kernel method

对于更新后的w，一般是输入数据点的线性组合。当初始化w=0，则下图中的 $\alpha^{\ast}_n$ 是前述的 $c^n(w)$ ，而该值很多是0，因此权重矩阵W为sparse，值不为0的点为support vectors。

进一步地，这里w为一个vector，而该列向量可以表示为下图公式，也就是存在一个X，使得X和alpha的乘积为权重向量w。这里得到的kernel为向量x乘以固定的x。

对于优化函数L，可以发现，只需要知道kernel function，也就是需要知道向量x和一个新向量z的内积，就可以进行优化。这称为kernel trick。

Kernel trick的具体如下图所示，也就是说kernel的求解可以拆为两个向量函数的内积。包含了平方的kernel、RBF kernel，sigmoid kernel。
当使用sigmoid kernel，可以想象成为只有一个hidden layer的网络，支持向量的个数就是神经元的个数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。