机器学习算法深度剖析与实践
1. 支持向量机(SVM)
支持向量机(Support Vector Machines,SVM)是一类用于将数据分类到不同类别的机器学习算法,它借助超平面这一概念,在数据点之间划定线性边界。
1.1 超平面与最大间隔分离原则
假设有一组黑白点分布在 x-y 轴上,我们可以找到多条直线将它们分开。例如,直线 H1 和 H2 都能准确地分离这些点,但哪条是最优直线呢?直观来看,像垂直的直线 H1 这种离点太近的直线,可能不是最优的分离线。因为它对数据中的微小变化过于敏感,即使新点稍微偏离直线左右,也可能导致分类错误。而直线 H2 在分离数据的同时,与离它最近的点保持了最大可能的距离,数据中的轻微瑕疵不太可能像 H1 那样影响点的分类,这就是最大间隔分离原则。
靠近超平面的点被称为“支持向量”,在相关图像中,位于虚线上的点就是支持向量。
1.2 核技巧
在现实世界中,并非所有点都能“线性可分”。SVM 运用了“核技巧”,即将可能无法线性分离的点投影或映射到更高维的表面。例如,在二维 x-y 空间中无法用直线分离的点,投影到三维空间后,就有可能被超平面分离。
1.3 R 语言中使用 SVM
在 R 语言里,有多个包可用于实现 SVM,如 kernlab、e1071、klaR 等。以下是使用 e1071 包的示例代码:
library(mlbench)
library(caret)
library(e1071)
set.seed(123)
data("PimaIndiansDiab
超级会员免费看
订阅专栏 解锁全文
1704

被折叠的 条评论
为什么被折叠?



