序言:
有人说, 支持向量机是整个机器学习中最复杂的算法;
还有人说,如果支持向量机没学好,机器学习就白学了。
从今天开始,我将开始该算法的学习,看看需要花多久才能掌握它。
童话故事:
关于SVM,流传着一个关于天使与魔鬼的故事。
传说魔鬼和天使玩了一个游戏,魔鬼在桌上放了两种颜色的球,如图3.1所示。魔鬼让天使用一根木棍将它们分开。这对天使来说,似乎太容易了。天使毫不犹豫的找根棍子一摆,便完成了任务,如图3.2所示。魔鬼又加入了更多的球。随着球的增多,似乎有的球不能再被原来的木棍正确分开,如图3.3所示。
SVM实际上是在为天使找到木棒的最佳放置位置,使得两边的球都离分隔它们的木棒足够远,如图3.4所示。依照SVM为天使选择的木棒位置,魔鬼即使按刚才的方式继续加入新球,木棒也能很好地将两类不同的球分开,如图3.5所示。
看到天使已经很好地解决了用木棒线性分球的问题,魔鬼又给了天使一个新的挑战,如图3.6所示。按照这种球的摆法,世界上貌似没有一根木棒可以将它们完美分开。但天使毕竟有圣力,他一拍桌子,便让这些球飞到了空中,然后凭借圣力抓起一张纸片,插在了两类球的中间,如图3.7所示。从魔鬼的视角看这些球,像是被一条曲线完美的切开了,如图3.8所示。
后来,数据科学家们把这些球称为“数据”,把木棍称为“分隔面”,找到最大间隔的木棒位置的过程称为“优化”,拍桌子让球飞到空中的圣力叫“核映射”,在空中分隔球的纸片称为“分隔超平面”。这便是SVM的童话故事。
SVM概论:
在高维的特征空间中,用于切割分类的平面被称为“分隔超平面”,如果是在2维的空间中,分隔超平面退化成一条线。因此,就会引出一个推论:样本点在二维特征空间中,分隔超平面是一维的ÿ