Q1
在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?
answer
首先明确是题目中的概念,线性可分的两类点,即通过一个超平面可以将两类点完全分开,如下图所示:
假设超平面(对于二维空间来说,分类超平面退化成一条直线)为svm算法计算得出的分类面,那么两类点就完全被分开。我们想探讨的是:将两类点向绿色平面上做投影,在分类直线上得到黄灰两类投影点是否线性可分?如下图所示:
显然这些点在分类超平面上相互间隔,但并不是线性可分的,考虑一个更加简单的反例,假设二维空间中只有两个样本点,每个点属于一类分类任务,此时的svm就是两个点的中垂线,两个点都会落在线上的同一个点上,自然是线性不可分的。
实际上对于任意线性可分的两组点,他们在svm分类的超平面上的投影都是线性不可分的。我们先从二维考虑,然后再推导到高维空间。
由于svm分类的超平面仅由支持向量决定,我们可以考虑一个只含有支持向量svm模型的场景。使用反证法来证明。假设存在一个svm分类超平面使所有的支持向量在该平面的投影依然线性可分,如下图所示。根据几何知识不难发现,图中AB两点中垂线组成的超平面(绿色虚线)是相当于绿色实线更优的解,这与之前假设绿色直线超平面为最优的解相矛盾,两组点投影后,并不是线性可分的。
我们的证明还有不严谨的地方,即我们假设了仅有支持向量的情况,会不会在超平面的变换过程中支持向量发生了改变,原先的支持向量发生了转化呢?下面我们证明svm的分类结果仅依赖于支持向量。考虑svm中的KKT条件要求
▽ωL(ω∗,β∗,α∗)=ω∗−∑i=1Nα∗yixi\bigtriangledown _{\omega }L(\omega ^{*},\beta^{*},\alpha ^{*})=\omega^* - \sum_{i=1}^{N}\alpha^*y_ix_i▽ωL(ω∗,β∗,α∗)=ω∗−∑i=1Nα∗yixi ————————————————1
▽βL(ω∗,β∗,α∗)=−∑i=1Nα∗yi\bigtriangledown_{\beta}L(\omega^*,\beta^*,\alpha^*)=-\sum_{i=1}^{N}\alpha^*y_i▽βL(ω∗,β∗,α∗)=−∑i=1Nα∗yi————————————————————2
α∗gi(ω∗)=0,i=1....N\alpha^*g_i(\omega^*)=0,i=1....Nα∗gi(ω∗)=0,i=1....N————————————————————————3
gi(ω∗)⩽0,i=1,....,Ng_i(\omega^*)\leqslant0,i=1,....,Ngi(ω∗)⩽0,i=1,....,N————————————————————————4
αi∗⩾0,i=1,....,N\alpha_i^* \geqslant0,i=1,....,Nαi∗⩾0,i=1,....,N——————————————————————————5
结合3和4两个条件不难发现,当gi(ω∗)<0g_i(\omega^*)<0gi(ω∗)<0时必有αi∗=0\alpha_i^*=0αi∗=0,将这一结果与拉格朗日对偶最优化问题公式相比较
L(ω∗,α∗,β∗)=12ω∗2+∑i=1Nαi∗gi(ω∗)L(\omega^*,\alpha^*,\beta^*)=\frac{1}{2}\omega^{*2}+\sum_{i=1}^N\alpha^*_ig_i(\omega^*)L(ω∗,α∗,β∗)=21ω∗2+∑i=1Nαi∗gi(ω∗)————————————————6
gi(ω∗)=−yi(ω∗⋅xi+β∗)+1g_i(\omega^*)=-y_i(\omega^*\cdot x_i + \beta^*)+1gi(ω∗)=−yi(ω∗⋅xi+β∗)+1
可以看到除了支持向量外,其他系数都是零,因此svm分类的结果与仅使用支持向量的分类一致,说明svm的分类结果只依赖与支持向量,这也是svm拥有高运运行效率的原因之一。于是我们证明了对于任意线性可分的两类点,他们在svm的超平面的投影都是线性不可分的。
实际上,该问题还可以通过凸优化理论(separating hyperplane theorem,sht)中的超平面分离定律更加轻巧的解决。该定理的描述的是,对于不相交的两个凸集,存在一个超平面,将两个凸集分离。对于二维的情况,两个凸集间距离最短两点连线的中垂线就是将他们分离的超平面。
借助这个定理,我们可以先对线性可分的这两组点求各自的凸包。不难发现,svm求得的超平面就是这两个凸包上距离最短的点连线的中垂线,也就是sht定理二维情况中所阐释的分类超平面。根据凸包的性质容易知道,凸包上的点要么是样本点要么处于两个样本的连线上。因此,两个凸包间距离最短的两个点分为三种情况:两边的点均为样本点,如下图a所示;两边的点均在样本点的连线上,如图b所示;一边的为样本点,另一边的点在样本点的连线上,如图c所示。从集合分析可知道,无论哪种情况,两类点的投影都是线性不可分的。
图片a,第一种情况:
图片b 第二种情况
第三种情况: