svm 函数间隔与几何间隔的认识

本文详细解析了在机器学习中,特别是在支持向量机(SVM)中,函数间隔与几何间隔的概念及其区别。通过直观的例子说明了如何计算点到超平面的距离,并探讨了增大函数间隔的方法以及其潜在的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在超平面wx+b=0w⋅x+b=0确定的情况下,|wx+b||w⋅x+b|可以相对地表示点x距离超平面的远
近。对于两类分类问题,如果wx+b>0w⋅x+b>0,则xx的类别被判定为1;否则判定为-1。

所以如果y(wx+b)>0,则认为xx的分类结果是正确的,否则是错误的。且y(wx+b)的值越大,分类结果的确信度越大。反之亦然。


解释函数间隔:

对于一个训练样本(x(i),y(i))(x(i),y(i))我们定义它到超平面(w,b)(w,b)的函数间隔为:

γ^=y(i)(wTx(i)+b)γ^=y(i)(wTx(i)+b)


我们希望函数间隔越大越好, 即:

ify(i)=1,wantwTx(i)+b0,ify(i)=1,wantwTx(i)+b0.ify(i)=1,wantwTx(i)+b≫0,ify(i)=−1,wantwTx(i)+b≪0.

并且有, 若y(i)(wTx(i)+b)>0y(i)(wTx(i)+b)>0则样本(x(i),y(i))(x(i),y(i))分类正确。

对于整个训练集, 我们的函数间隔定义为:

γ^=miniγ^(i)γ^=miniγ^(i)

也就是说, 对于整个训练集来说, 函数间隔为所有样本中函数间隔最小的那个函数间隔.(判断性能当然是以最小的那个来确定啦)



那么问题又来了:

函数间隔越大, 代表我们对于分类的结果非常确定. 我们希望函数间隔越大越好. 看上去好像没什么毛病, 但这里的确有一个问题, 就是其实我们可以在不改变这个超平面的情况下可以让函数间隔任意大, 为什么?


只要我们成比增加ww,b就可以达到这个目的了. 例如, 我们将
ww变为2w, bb变为2b, 那么我们的函数间隔将会是原来的两倍, 但是超平面2wTx+2b=02wTx+2b=0wTx+b=0wTx+b=0是一回事.

为了解决这个问题, 我们就需要加上一些限制条件,所以,需要将ww的大小固定,如||w||=1,使得函数间隔固定。这时的间隔也就是几何间隔 .(看完后面几何间隔的定义就明白了)


解释几何间隔:

实际上,几何间隔就是点到超平面的距离。


想像下中学学习的点(xi,yi)(xi,yi)到直线

ax+by+c=0ax+by+c=0的距离公式:

d(xi,yi)=|axi+byi+c|a2+b2d(xi,yi)=|axi+byi+c|a2+b2

所以在二维空间中,几何间隔就是点到直线的距离。在三维及以上空间中,就是点到超平面的距离。而函数距离,就是上述距离公式中的分子.


几何间隔的定义如下:

γ(i)=y(i)(wTwx(i)+bw)γ(i)=y(i)(wT‖w‖x(i)+b‖w‖)

我们发现当||w||=1||w||=1几何间隔就是函数间隔.这个时候, 如果任意放大||w||||w||,几何间隔是不会改变的, 因为||w||||w||也会随着被放大.


几何间隔与函数间隔的关系为:

γ(i)=γ^(i)w.γ(i)=γ^(i)‖w‖.

定义训练集到超平面的最小几何间隔是:

γ=miniγ(i)γ=miniγ(i)

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值