支持向量机(SVM):原理、应用与优化
1. 支持向量机简介
支持向量机(SVM)是一种强大且通用的机器学习模型,能够执行线性或非线性分类、回归,甚至异常值检测。它是机器学习中最受欢迎的模型之一,对于复杂的中小型数据集的分类任务,SVM 尤为适用。
2. 线性 SVM 分类
2.1 大间隔分类原理
SVM 的基本思想可以通过图形来解释。以鸢尾花数据集为例,两个类别可以用一条直线轻松分开(线性可分)。不同的线性分类器有不同的决策边界,其中一些决策边界可能会使分类效果不佳,而 SVM 分类器的决策边界不仅能分开两个类别,还能尽可能远离最近的训练实例,就像在两个类别之间拟合了一条最宽的“街道”,这就是大间隔分类。
决策边界完全由位于“街道”边缘的实例决定,这些实例被称为支持向量。添加“街道”外的训练实例不会影响决策边界。
2.2 特征缩放的敏感性
SVM 对特征缩放很敏感。如果特征的尺度差异较大,可能会导致决策边界不理想。通过特征缩放(如使用 Scikit - Learn 的 StandardScaler),可以改善决策边界的效果。
2.3 软间隔分类
硬间隔分类要求所有实例都必须在“街道”外且在正确的一侧,但它存在两个主要问题:一是只适用于线性可分的数据;二是对异常值敏感。
为避免这些问题,可以使用软间隔分类,其目标是在保持“街道”尽可能宽和限制间隔违规(即出现在“街道”中间甚至错误一侧的实例)之间找到良好的平衡。
在使用 Scikit - Learn 创建 SVM 模型时,可以指定超参数 C。C 值较低时,模
超级会员免费看
订阅专栏 解锁全文
1441

被折叠的 条评论
为什么被折叠?



