SVM支持向量机的使用和参数详解

原创已于 2023-09-26 21:10:19 修改 · 2.5k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #算法 #机器学习

于 2023-09-26 09:06:34 首次发布

本文介绍了支持向量机(SVM)的原理、使用方法，包括数据准备、参数解释（如C、核函数、gamma等）、以及如何通过交叉验证优化。强调了实际应用中根据问题和数据调整参数的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、支持向量机

支持向量机（Support Vector Machines，SVM）是一种常用的监督学习算法，用于分类和回归问题。在分类任务中，SVM试图找到一个最优超平面，将不同类别的样本分隔开来。

二、SVM的使用及参数含义

下面是SVM的使用方法和一些常见参数的含义：

数据准备：首先，你需要准备带有标签的训练数据集，其中每个样本包含一组特征和对应的标签。
特征预处理：在应用SVM之前，通常需要对特征进行标准化或归一化处理，以确保不同特征的尺度一致，避免某些特征对分类结果的影响更大。
创建模型：使用机器学习库（如scikit-learn）来创建一个SVM分类器对象。在scikit-learn中，可以使用SVC类来实现SVM。 class sklearn.svm.svc(c=0.1,kernel='linear',gamma='auto')
参数选择：SVM中的一些重要参数如下：
- C参数（正则化参数）：c越大对误分类的惩罚越大，这样对训练集的准确率很高，但是泛化能力会很弱；c越小对误分类的惩罚越小，允许出错将出错的数据当作噪声点，泛化能力较强，建议通过交叉验证来选择。
- 核函数：SVM可以使用不同的核函数来从低维特征空间将数据映射到高维特征空间。常用的核函数有linear线性核（Linear Kernel）、poly多项式核（Polynomial Kernel）和rbf径向基函数（Radial Basis Function，RBF Kernel），多数情况下都会选择默认的rbf径向基函数。
- gamma参数（对RBF核函数有效）：它控制了样本点对决策边界的影响。较小的gamma值将导致决策边界受到较远样本点的影响，而较大的gamma值将导致决策边界只受到较近样本点的影响。换句话说，gamma值越小，过拟合风险越低，反之则过拟合风险越高。在sklearn0.21版本中gamma值默认为‘auto’，实际系数就是1/n_features，也就是如果有10个特征，那么gamma值就为0.1；而在sklearn0.22版本中gamma默认为‘scale’，此时gamma=1/（n_features*X.var()），其中X.var()表示样本所有特征的平均值。建议通过交叉验证来选择。
- degree：整型，一般默认三维，多项式核函数poly选择时默认啊是三维，选择其他函数时忽略。
- cachez_size:核函数cache缓存大小，默认是200MB。
模型训练：使用准备好的训练数据对SVM分类器进行训练，即通过调用fit方法传入特征和标签。
模型预测：使用训练好的SVM分类器对新的未知样本进行预测，即通过调用predict方法传入特征数据。