Python机器学习实战之支持向量机概念篇

Mr.late

已于 2023-10-28 19:18:07 修改

阅读量676

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战文章标签： python SVM

于 2018-02-10 02:35:54 首次发布

本文链接：https://blog.youkuaiyun.com/qq_36026791/article/details/79302099

本文深入浅出地介绍了支持向量机（SVM）的基础知识，包括SVM的概念、优缺点、适用数据类型以及解决非线性问题的核函数。通过对线性可分和不可分情况的讨论，阐述了SVM如何寻找最大间隔超平面，并通过软间隔最大化处理离群点。最后，解释了核函数在处理线性不可分样本中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python机器学习实战之支持向量机概念篇

本文章主要参考《机器学习实战》之前一直使用sklearn库来调用算法，却不知道算法的低层含义是什么，如何构造出来的。让我很是苦恼。于是决定学习这本书来增强自己对算法的理解能力。

本节主要介绍支持词向量机的算法的推导过程，试图用自己理解的话语最简单的解答支持向量机的主要思想，之后会通过python代码加以实现。

一、SVM概念及推导

优点：泛化错误率低，计算开销小，结果易解释
缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二分类问题
适用数据类型：数值型，标称型数据

我们知道机器学习中监督学习主要任务就是分类，而分类的目的是学会一个分类函数或分类模型（或者叫做分类器），该模型能把数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知类别。对于SVM来说，它作为一个而分类的分类模型，也就是给定一个包含正例和反例（正样本点和负样本点）的样本集合，支持向量机的目的是寻找一个超平面来对样本进行分割，把样本中的正例和反例用超平面分开，但是不是简单地分开，其原则是使正例和反例之间的间隔最大。学习的目标是在特征空间中找到一个分类超平面wx+b=0，分类面由法向量w和截距b决定。分类超平面将特征空间划分两部分，一部分是正类，一部分是负类。法向量指向的一侧是正类，另一侧为负类。

如下图两分类的例子所示，我们的分类目标是在Class1与Class2两类样本之间找到一条线，将他们分隔开，如果有新的样本来了，落在线的左边则分到class1类，落到右边则分到class2类。但是又如右图所示，我们可以得出很多条线。那么问题来了，究竟那一条线才能最有效的将两类样本分隔开呢？此外，下图为二维空间，在二维空间中分类就是线，如果是三维那就叫做面了，在高维中也有个NB的名字，叫做超平面。一般将任何维的分类边界都统称为超平面。
这里写图片描述 <