理解感知机算法：从原理到实现-优快云博客

本文链接：https://blog.youkuaiyun.com/akirameiao/article/details/79436859

本文详细介绍了感知机算法的原理，包括模型定义、损失函数、学习策略及原始和对偶形式的算法。通过理解误分类点的处理方式，展示了感知机如何逐步找到能正确分类数据的超平面。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

很多人可能听过大名鼎鼎的SVM，这里介绍的正是SVM算法的基础——感知机，感知机是一种适用于二类线性分类问题的算法

原理

问题的输入与输出：
X = { $x_1,x_2,...,x_n$ }
Y = {+1, -1}
模型：
感知机的目的是找到一个可以正确分类数据的超平面S： $\omega\cdot x+b=0$ , 其中 $\omega$ 是超平面的法向量，b是截距，得到感知机模型 $f(x)=sign(\omega\cdot x+b)$ ，其中 $\omega\cdot x+b>0$ 为正类， $\omega\cdot x+b<0$ 为负类
策略：
接下来的问题就是如何找到最优模型，简单说就是定义损失函数并将损失函数最小化。损失函数需要是关于ω，b的连续可导函数，这里采用的正是误分类点离超平面的距离。
$\because$ 输入空间任意一点 $x_i$ 到超平面的距离为 $\frac{1}{||\omega||}|\omega \cdot x_i+b|$ ，
$\because$ 对于任意误分类的点: $-y_i(\omega \cdot x_i+b)>0$
$\therefore$ 点到超平面的距离可以表示为 $-\frac {1}{||\omega||}y_i(\omega \cdot x_i+b)$
$\therefore$ 所有误分类的点到超平面的距离之和为： $\frac {1}{||\omega||}\sum_{x_i\in M}y_i(\omega\cdot x_i+b)$ ，其中M表示所有误分类的点的集合
$\therefore$ 不考虑 $\frac {1}{||\omega||}$ , 损失函数可以写成 $L(\omega,b)=\sum_{x_i\in M}y_i(\omega\cdot x_i+b)$
感知机学习的策略就是寻找 $minL(\omega,b)=\sum_{x_i\in M}y_i(\omega\cdot x_i+b)$ 的 $\omega,b$
算法：
直观的说，当有一个实例点被误分类时，实例点在分类超平面的错误一侧，调整 $\omega$ 和 b 的值，使得分离超平面向该点移动，以减少点到分类超平面的距离，直到越过改点使其正确分类
1.原始形式

$\because$