机器学习之支持向量机（一）样本线性可分实现原理

最新推荐文章于 2022-07-16 21:26:53 发布

原创

最新推荐文章于 2022-07-16 21:26:53 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #支持向量机 #线性可分 #实现原理

支持向量机是一种有效的机器学习算法，尤其擅长处理非线性可分数据。其核心是寻找最优决策边界，即最大化margin的边界。这一边界由距离最近的支持向量决定，通过数学优化问题来最小化模型参数W的范数。在完全线性可分的情况下，支持向量机的目标是找到使距离最大化（即最小化W的平方）的解，这简化了实际的计算过程。

支持向量机

支持向量机是神经网络大热之前，独领风飒的一种机器学习的算法。主要用来解决机器学习中的分类问题，也可以用来解决回归问题。大热是因为支持向量机能够将非线性可分的数据集，分的很好。

原理实现

支持向量机在让机器学习的过程中，主要是寻找一个决策边界，这个决策边界相比于逻辑回归或者线性回归，有大大的优化，如果说逻辑回归或者线性回归和支持向量机都能找到一个符合我们期望的决策边界，那么支持向量机找到的决策边界，将是最好的那个决策边界。
所谓最好的决策边界，就是容错率最高的那个决策边界。
所谓容错率最高的决策边界，就是在决策边界的正负两个方向，拥有最大的留白部分，就是margin。当模型训练到最大margin的时候，将模型用于实践，去预测新来的数据，模型将拥有最大的泛化能力。就是说，这样的模型，在工业应用中，表现出的预测效果最好，是我们最期望的模型。

我们的直观目的就是要求得决策边界的最大的margin，就是距离决策边界最近的点的最大距离。
进一步说明的话就是，机器找到了一个决策边界，将正负两类分开，然后机器会求得所有的样本点到这个决策边界的距离，找到距离本个决策边界最近的那么几个点（这几个点叫做支持向量），将这几个点到决策边界的距离和在其他决策边界中找到的相同作用的点的距离，做一个比较，哪个距离更大，那个就是更好的决策边界。
通过这样的分析，可以总结出：
首先，要找到每一个决策边界中，距离决策边界最近的点
然后，比较每组最近的点，找到那组最远的点
希望我这样的表述，可以被听得明白。