SVM入门（1）--优化目标函数的来龙去脉

最新推荐文章于 2025-10-14 20:31:40 发布

原创

最新推荐文章于 2025-10-14 20:31:40 发布 · 9.1k 阅读

8 ·

CC 4.0 BY-SA版权

本文详细解释了支持向量机(SVM)在线性可分情况下的优化目标函数的由来，包括目标函数的形式化定义、参数w和b的意义以及约束条件的理解。

在线性可分的场景下，SVM的优化目标函数为：
这里写图片描述
如果是刚接触SVM,你可能不知道这个目标函数，当然你也不知道这个w是什么，后面的这个约束条件什么意思。没关系，你现在只要记着，这个就是在线性可分类场景下，SVM最终要优化的目标函数。显然，这个目标函数是二次的，约束条件是线性的，所以它是一个凸二次规划问题。对于这样的二次规划问题，有现成的二次规划优化包来求解。
现在，对于初学者来说，最想搞明白的是什么呢？显然，是这个目标函数是怎么来的? 这个w是个什么东西？约束条件为什么是个这样的不等式？为什么是≥1?如果你不能回答这些问题，不知道这个目标函数的由来，同时又非常想知道，那你就认认真真的往下看吧。否则，后面的内容你就不要耽误时间阅读了。
对于类似下图的线性可分的场景：
这里写图片描述
想要找一条线（高纬度时就说一个超平面）将这两种不同颜色的点分开。显然，这样的超平面直观上有很多。但是，哪一个是“最合适的”呢？比如，图上的点是训练样本点，那么增加要预测的点的时候，这个平面还能不能准确的预测这些点的类别?也就是泛化能力好不好？自然，那些离平面两边数据的间隔最大的平面才是最合适的。那么，如何找到有最大间隔的超平面呢？
首先，让我们从形式上定义这个超平面：
这里写图片描述
其中w是参数向量，x是维度向量。
要找到这个超平面，也就是要求这个等式中的w和b。条件是什么呢？是的，条件就是上面提到的：平面两边的数据（点）到平面的间隔要最大。有没有办法形式化这一点呢？
首先，假定对于一个点x,令其垂直投影到超平面上的对应点为x0,w是垂直于超平面的一个向量，r为样本x到分类间隔的距离，如下图所示：
这里写图片描述
有
又由于x0是超平面上的点，满足f(x0) = 0,代入超平面的方程即可算出：
$\gamma=\frac{w^Tx+b}{||w||} = \frac{f(x)}{||w||}$
为了得到

最低0.47元/天解锁文章