SVM支持向量机原理详解

SVM

考虑一个二分类问题。假设输入空间与特征空间为两个不同的空间。输入空间为欧式空间或离散集合,特征空间为欧式空间或希尔伯特空间。线性可分支持向量机、线性支持向量机假设这两个空间的元素一一对应,并将输入空间中的输入映射为特征空间中的特征向量。非线性支持向量机利用一个从输入空间到特征空间的非线性映射将输入映射为特征向量。所以,输入都由输入空间转换到特征空间,支持向量机的学习是在特征空间进行的。

希尔伯特空间:一个完备的内积空间。 R n R^n Rn就是一个完备的内积空间,即Hilbert空间。大部分时候我们的输入 x x x都在 R n R^n Rn中,因此即使不懂什么叫完备也没关系。

线性可分支持向量机

线性可分即存在一个超平面可以将数据点分为两类,分离超平面为:
w ∗ x + b ∗ = 0 (1) \begin{aligned} w^*x+b^*=0 \tag{1} \end{aligned} wx+b=0(1)

决策函数为:

f ( x ) = s i g n ( w ∗ x + b ∗ ) (2) f(x) = sign(w^*x+b^*) \tag{2} f(x)=sign(wx+b)(2)

SVM最大的特点就是使分离超平面与样本点的最小距离最大,即“最小间隔最大化”。因为距离分离平面越远的点,模型在预测其类别时的置信度就越高。距离最大就引出了SVM的优化目标函数,在这之前首先要介绍函数间隔和几何间隔。

函数间隔

r ^ = y ( w x + b ) (3) \hat{\mathop{r}} = y(wx+b) \tag{3} r^=y(wx+b)(3)

上式中 y y y为样本的类别标签。可以看出,当点 x i x_i xi被正确分类,则其函数间隔大于0,而与其类别无关;反之则一定小于0.对于给定的一组 w , b w, b w,b,函数间隔的大小也可以代表模型对于分类结果的确信程度。

几何间隔

w , b w, b w,b成比例变化时,函数间隔亦成比例变化,但是分隔超平面没有变化。比如在二维坐标系下 2 x 1 + 4 x 2 + 3 = 0 2x_1+4x_2+3=0 2x1+4x2+3=0 4 x 1 + 8 x 2 + 6 = 0 4x_1+8x_2+6=0 4x1+8x2+6=0显然为同一条直线,只是系数成比例的变化。这就启发我们可以对每个分离超平面除以它的 ∣ ∣ w ∣ ∣ ||w|| w, 由此得到几何间隔:
r = y w x + b ∣ ∣ w ∣ ∣ (4) r=y\frac{wx+b}{||w||} \tag{4} r=ywwx+b(4)

事实上,当分类正确时等号右边就是点到直线的距离公式。这样我们就能将SVM公式化为下面的优化问题:

max ⁡ w , b r s . t . y i ∣ ∣ w ∣ ∣ ( w x i + b ) ≥ r , i = 1 , 2 , … , N (5) \max_{w, b} \qquad r \\ \tag{5} s.t.\qquad \frac{y_i}{||w||}(wx_i+b)\ge{r}, i=1, 2, \dots, N w,bmaxrs.t.wyi(wxi+b)r,i=1,2,,N(5)

其中,限制条件体现了“最小间隔”,目标函数保证了“间隔最大化”。 但是这个最优化问题不好求解,我们需要想办法让问题的形式更简单一点。考虑函数间隔和几何间隔之间的关系,可以将上面的优化问题改写为:

max ⁡ w , b r ^ ∥ w ∥ s . t . y i ( w x i + b ) ≥ r ^ , i = 1 , 2 , … , N (6) \max_{w, b} \qquad \frac{\hat{r}}{\lVert w\rVert}\\ \tag{6} s.t.\qquad {y_i}(wx_i+b)\ge{\hat{r}}, i=1, 2, \dots, N w,bmaxwr^s.t.yi(wxi+b)r^,i=1,2,,N(6)
根据我们之前的讨论,函数间隔可以任意变化,我们总是可以通过成比例的改变 w , b w,b w,b来保证得到相同的分离超平面。

证明:假设 r 1 = k r 2 r_1=kr_2 r1=kr2, 当 r ^ = r 2 \hat{r}=r_2 r^=r2时解为 w ∗ , b ∗ w^*, b^* w,b,则对于任意的输入 x i x_i xi
k y i ( w ∗ x i + b ∗ ) ≥ k r 2 = r 1 , 满 足 限 制 条 件 r 1 k ∣ ∣ w ∗ ∣ ∣ = r 2 ∣ ∣ w ∗ ∣ ∣ ≥ r 2 ∣ ∣ w ∣ ∣ = r 1 k ∣ ∣ w ∣ ∣ , 满 足 最 优 的 要 求 \begin{aligned} &k{y_i}(w^*x_i+b^*)\ge kr_2=r_1, \qquad &满足限制条件\\ &\frac{r_1}{k||w^*||}=\frac{r_2}{||w^*||}\ge\frac{r_2}{||w||}=\frac{r_1}{k||w||},\qquad &满足最优的要求 \end{aligned} kyi(wxi+b)kr2=r1,kwr1=wr2wr2=kwr1
k w ∗ , k b ∗ kw^*, kb^* kw,kb r ^ = r 1 \hat{r}=r_1 r^=r1的解,显然它与 w ∗ , b ∗ w^*, b^* w,b是同一个解。又因为在线性可分的情形下分离超平面存在且唯一,所以 r ^ = r 1 \hat{r}=r_1 r^=r1 r ^ = r 2 \hat{r}=r_2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值