本篇博客是对[1]中习题2.3的证明。首先给出凸壳与线性可分的定义:
凸壳
定义1:设集合S⊂Rn,是由Rn中的k个点所组成的集合,即S={x1,x2,⋯,xk}。定义S的凸壳conv(S)为:
conv(S)={x=∑i=1kλixi∣∣∣∑i=1kλi=1,λi≥0,i=1,2,⋯,k}
注:
看懂定义忽略该段,对这个定义进行一个小提示,首先凸壳是一个集合,对于所有可能的
λi,i=1,2,⋯,k只要满足
∑ki=1λi=1,那么
x=∑ki=1即为凸壳中的元素。凸壳可以用二维的图形可以表示如下
线性可分
定义2:给定一个数据集
T={(x1,y1),(x2,y2,⋯,(xn,yn))}
其中
xi∈=Rn,
yi∈={+1,−1},
i=1,2,⋯,n,如果存在某个超平面S:
w⋅x+b=0
能够讲数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有的正例点即
yi=+1的实例
i,有
w⋅xi+b>0,对所有的负实例点即
yi=−1的实例
i,有
w⋅xi+b<0,则称数据集
T为线性可分数据集;否则,称数据集
T线性不可分。
=====================================================
定理
样本集线性可分的充分必要条件使正实例点集构成的凸壳与负实例点集所构成的凸壳互不相交。
必要性:线性可分->凸壳不相交
设数据集T中的正例点集为S+,S+的凸壳为conv(S+),负实例点集为S−,S−的凸壳为conv(S−),若T是线性可分的,则存在一个超平面:
w⋅x+b=0
能够将
S+和
S−完全分离。假设对于所有的正例点
xi,有:
w⋅xi+b=εi
易知
εi>0,i=1,2,⋯,|S+|。若
conv(S+)和
conv(S−)相交,即存在某个元素
s,同时满足
s∈conv(S+)和
s∈conv(S−)。对于
conv(S+)中的元素
s+有
w⋅s+=w⋅∑i=1kλixi=∑i=1kλi(εi−b)=∑i=1kλiεi−b
因此
w⋅s++b=∑ki=1λiεi>0,同理对于
S+中的元素
s−有
w⋅s++b=∑ki=1λiεi<0,那么由于
s∈conv(S+)且
s∈conv(S−)则
w⋅s+b=∑ki=1λiεi>0且
w⋅s+b=∑ki=1λiεi<0明显推出矛盾,因此
conv(S+)和
conv(S−)必不相交。从而推出必要性。
充分性:凸壳不相交->线性可分
设数据集T中的正例点集为S+,S+的凸壳为conv(S+),负实例点集为S−,S−的凸壳为conv(S−),且conv(S+)与conv(S−)不相交,定义两个点x1,x2的距离为
dist(x1,x2)=||x1−x2||2=(x1−x2)⋅(x1−x2)‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√
定义
conv(S+)与
conv(S−)的距离为
dist(conv(S+),conv(S−))=min||s+−s−||,s+∈conv(S+),s−∈conv(S−)
设
x+∈conv(S+),
x−∈conv(S−)且
dist(x+,x−)=dist(conv(S+),conv(S−))。则对于任意正例点
x有
dist(x,x−)≥dist(x+,x−)。同理,对于所有的负例点
x有
dist(x,x+)≥dist(x,x−)。存在超平面
w⋅x+b=0
其中
wb=x+−x−=−x+⋅x+−x−⋅x−2
则对于所有的正例点
x(易知
w⋅x++b>0,因此若
x+属于正例点,则令
x≠x),
w⋅x+b=(x+−x−)⋅x−x+⋅x+−x−⋅x−2=x+⋅x−x−⋅x−x+⋅x+−x−⋅x−2=||x−−x||22−||x+−x||222=dist(x,x−)2−dist(x,x+)22
若
dist(x,x−)≤dist(x,x+),则
dist(x,x−)≤dist(x,x+)≤dist(x−,x+),那么
dist(S+,S−)<dist(x+,x−)(注:证明过程见下方),推出矛盾。因此对所有的正例点,
w⋅x+b>0成立。同理,对所有的负例点,
w⋅x+b<0成立。至此,充分性得证。
补充:用反正法证明dist(x,x−)>dist(x,x+)
证明:若dist(x,x−)≤dist(x,x+),则存在t=(x−−x+)⋅(x−x+)||x−x+||22,令x′=tx+(1−t)x+,则(x−−x′)⋅(x+−x)=0。易知t≤1先证明0<t,我们可以将x,x+,x−看作是空间中三个不同的点,三条边的长度分别为dist(x,x+),dist(x,x−),dist(x−,x+)有上文知dist(x,x+)≥dist(x,x−)≥dist(x−,x+)根据三角形的大边对应大角这一特性,很容易可以看出x+−x与x+−x−之间的夹角小于90度,因此t>0。那么dist(x′,x−)<dist(x+,x−),有因为x′必在conv(S+)内部,所以推出矛盾。
[1]:李航. 统计学习方法[M]. 清华大学出版社, 2012.