线性可分支持向量机最大间隔唯一性证明
《统计学习方法》定理7.1中 唯一性的证明:
假设问题(7.13)~(7.14)存在两个最优解(w∗1,b∗1w1∗,b1∗)和(w∗2,b∗2w2∗,b2∗),则 w∗1和w∗2w1∗和w2∗的长度相同,即 ||w∗1||=||w∗2||=c||w1∗||=||w2∗||=c,其中c是一个常数。令 w=w∗1+w∗22w=w1∗+w2∗2,b=b∗1+b∗22b=b1∗+b2∗2,将(w∗1,b∗1w1∗,b1∗)和(w∗2,b∗2w2∗,b2∗)分别带入到式(7.14) yi(w⋅xi+b)−1>=0yi(w⋅xi+b)−1>=0,有yi(w∗1⋅xi+b∗1)−1>=0yi(w1∗⋅xi+b1∗)−1>=0和yi(w∗2⋅xi+b∗2)−1>=0yi(w2∗⋅xi+b2∗)−1>=0,
两式相加除以2,就有yi(w∗1+w∗22⋅xi+b∗1+b∗22)−1>=0yi(w1∗+w2∗2⋅xi+b1∗+b2∗2)−1>=0。所以,(w, b)是问题(7.13)~(7.14)的可行解,从而有
上式表明,||w||=12||w∗1||+12||w∗2||=c||w||=12||w1∗||+12||w2∗||=c,如果有w∗1=λw∗2w1∗=λw2∗,则式||w||=12||w∗1||+12||w∗2||||w||=12||w1∗||+12||w2∗||会等价于|λ+1|⋅||w∗2||2=|λ|2||w∗2||+12||w∗2|||λ+1|⋅||w2∗||2=|λ|2||w2∗||+12||w2∗||,又因为w∗1和w∗2w1∗和w2∗要满足式(7.13)使||w||2||w||2最小,所以λ=1λ=1,即w∗1=w∗2w1∗=w2∗。
由此两个最优解(w∗1,b∗1w1∗,b1∗)和(w∗2,b∗2w2∗,b2∗)可以写为(w∗,b∗1w∗,b1∗)和(w∗,b∗2w∗,b2∗)。
再证b∗1=b∗2b1∗=b2∗:
设x′1和x′2x1′和x2′是集合{xi|yi=+1}{xi|yi=+1}中分别对应于(w∗,b∗1w∗,b1∗)和(w∗,b∗2w∗,b2∗)使得问题(7.14)的不等式等号成立的点,x′′1和x′′2x1″和x2″是集合{xi|yi=−1}{xi|yi=−1}中分别对应于(w∗,b∗1w∗,b1∗)和(w∗,b∗2w∗,b2∗)使得问题(7.14)的不等式等号成立的点,则有方程组
(1) 1⋅(w∗⋅x′1+b1)−1=01⋅(w∗⋅x1′+b1)−1=0
(2) 1⋅(w∗⋅x′2+b2)−1=01⋅(w∗⋅x2′+b2)−1=0
(3) (−1)⋅(w∗⋅x′′1+b1)−1=0(−1)⋅(w∗⋅x1″+b1)−1=0
(4) (−1)⋅(w∗⋅x′′2+b2)−1=0(−1)⋅(w∗⋅x2″+b2)−1=0
(1)-(3),得到 b1=12(w∗⋅x′1+w∗⋅x′′1)b1=12(w∗⋅x1′+w∗⋅x1″)
(2)-(4),得到 b2=12(w∗⋅x′2+w∗⋅x′′2)b2=12(w∗⋅x2′+w∗⋅x2″)
两式相减,得
又因为
(w∗⋅x′2+b1)>=1=(w∗⋅x′1+b1)(w∗⋅x2′+b1)>=1=(w∗⋅x1′+b1) 和
(w∗⋅x′1+b2)>=1=(w∗⋅x′2+b2)(w∗⋅x1′+b2)>=1=(w∗⋅x2′+b2),所以有
w∗(x′2−x′1)>=0w∗(x2′−x1′)>=0 和 w∗(x′1−x′2)>=0w∗(x1′−x2′)>=0,则 w∗(x′1−x′2)=0w∗(x1′−x2′)=0。同理有w∗(x′′1−x′′2)=0w∗(x1″−x2″)=0
因此,b∗1−b∗2=0b1∗−b2∗=0,即b∗1=b∗2b1∗=b2∗。
所以最优解是唯一的。