对于分类问题来讲,感知器(感知机)可以有多个“好的”分类器来完成对应的分类任务,如下图所示,假设训练数据线性可分,图中所有的直线都代表感知器的一个分界面,那么下图所有的分界面都能够顺利完成分类任务。
其中红色的线表示最好的一个分界面。理想的分界面要距离每一个样本都较远,这样的模型兼容性好、泛化能力和稳定性强,可以容忍在采集数据时造成的一定的噪声问题。
间隔(到超平面的距离)
为了描述上述思想,提出了间隔(margin) 的概念,是指决策边界(超平面)到分类样本(x)的最短距离。
如此以来,最好的分类器就是使得间隔最大的一种。将选择间隔最大的决策边界作为优化准则,叫做支持向量机(support vector machine)
如下图,对于判别函数 f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b,红色线 f ( x ) = 0 f(x)=0 f(x)=0表示决策边界。
首先, w w w方向上的法向量为 w ∥ w ∥ \frac{w}{\| w\|} ∥w∥w,则 x x x在 w w w上的投影就是
w ∥ w ∥ x = w T x ∥ w ∥ \frac{w}{\| w\|}x=\frac{w^Tx}{\| w\|} ∥w∥wx=∥w∥wTx
然后计算坐标原点到决策边界的距离,根据点到直线的距离公式可得
∣ w T ⋅ 0 + b ∣ ∥ w ∥ = b ∥ w ∥ \frac{|w^T\cdot 0+b|}{\| w\|}=\frac{b}{\| w\|} ∥w∥∣wT⋅0+b∣=∥w∥b
事实上, w w w的方向与决策边界是垂直的,也就是说原点到决策边界的垂直连线与 w w w的方向相同,证明如下1:
设 x 1 , x 2 为 f ( x ) = 0 上任意两点 则 f ( x 1 ) = f ( x 2 ) w T x 1 + b = w T x 2 + b w T ( x 1 − x 2 ) = 0 即 w T 与 x 1 − x 2 正交 又 x 1 , x 2 为 f ( x ) 上任意两点 所以 w T 与 f ( x ) 上任意一向量正交也即 w T 与 f ( x ) 垂直 \begin{aligned} &设x_1,x_2为f(x)=0上任意两点\\ &\begin{aligned} 则\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ f(x_1)&=f(x_2)\\ w^Tx_1+b&=w^Tx_2+b\\ w^T(x_1-x_2)&=0 \end{aligned}\\ &即w^T与x_1-x_2正交\\ &又x_1,x_2为f(x)上任意两点\\ &所以w^T与f(x)上任意一向量正交也即w^T与f(x)垂直 \end{aligned} 设x1,x2为f(x)=0上任意两点则 f(x1)wTx1+bwT(x1−x2)=f(x2)=wTx2+b=0即wT与x1−x2正交