感知机算法详解

最新推荐文章于 2025-07-01 11:10:49 发布

原创

最新推荐文章于 2025-07-01 11:10:49 发布 · 1.3w 阅读

95 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #感知机

本文详细介绍了感知机算法，从其能做什么、模型、策略、学习算法等方面进行讲解，并对比了感知机与其他算法如支持向量机、逻辑回归和神经网络的关系。感知机是一种线性判别模型，适用于线性可分数据集，尽管存在局限性，但它是理解其他机器学习模型的基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天想写一下感知机算法的详解。感知机算法由Rosenblatt在1957年提出，是一类简单的线性判别算法，通过扩展又可以与许多其他算法密切相关。如逻辑回归模型、支持向量机、前馈神经网络（多层感知机）、线性判别分析等。因此感知机算法尽管很少单独使用，但它对于理解其他模型和算法非常有用，很适合作为开始机器学习的一个切入点，同时也是建立知识体系的一个枢纽。

本文首先简要介绍感知机，然后讲解感知机的模型、策略、算法，最后分析感知机算法与各个算法之间的联系并做出总结。

感知机能做什么

感知机是一种二分类模型，其输入为样本的特征向量，输出为样本的类别，取+1和-1二值。要得到正确的模型，感知机要求数据集本身线性可分：
在二维平面上，线性可分意味着能用一条直线将正、负样本分开；
在三维空间中，线性可分意味着能用一个平面将正、负样本分开；
在n维空间中，线性可分意味着能用n-1维超平面将正、负样本分开。在这里插入图片描述

图1 二维平面上的线性可分与线性不可分

为了便于应用感知机算法，我们有时会使用一些技巧，使得线性不可分的样本在某些变换下成为线性可分。这些技巧包括将样本分离到更高维空间（图2）或投影到特定的方向（图3）等，这是另一大类方法，本文主要讲解一般的感知机，此处不详细展开讨论。

图2 分离到高维空间实现线性可分

图3 投影特定方向实现线性可分

感知机模型

定义
设输入空间（特征空间）为 $X⊆RnX\subseteq\R^n$ ,输出空间为 $Y=\{-1,+1\}$
输入 $x∈Xx\in X$ 为实例的特征向量输出 $y∈Yy\in Y$ 为实例的类别
由输入空间到输出空间的如下函数称为感知机
$f (x) = s i g n (w x + b)$ 其中 $w$ 和 $b$ 为模型参数， $w∈Rnw\in\R^n$ 称为权值， $b∈Rb\in\R$ 称为偏置。 $s i g n$ 是符号函数。

感知机模型有直观的几何解释：线性方程 $w x + b = 0$ 对应于分离超平面 $S$ ,其中 $w$ 为 $S$ 的法向量， $b$ 为 $S$ 的截距。求解感知机，就是要解出 $w$ 和 $b$ ,得到能正确分离所有正负样本的超平面 $S$ (见图1).

感知机策略

为找出正确的分离超平面、确定感知机模型参数，需要确定一个学习策略。在监督学习中，使用某种策略即是选用相应的损失函数。
考虑以在S划分下误分类点的总数作为损失函数，该函数可以自然地监督感知机的分类性能，但它不是参数 $w$ 和 $b$ 的连续可导函数，不易优化。如图4，当超平面在空间中由 $S 1$ 连续变化至 $S 3$ 时，相应的法向量 $w$ 也连续变化，而误分类点数量则是不连续的。在这里插入图片描述

图4 误分类点个数不连续变化
为此感知机采用的损失函数为:误分类点到超平面

S

的总距离，该函数对

w

和

b

连续可导。
单个点

x_i

到超平面

S

的距离为

−1∥w∥∣wxi+b∣-\frac{1}{\Vert w \Vert}\vert wx_i+b \vert

对于误分类点数据 $x_i,y_i)$ ,有 $y_i(wx_i+b)>0$ ,因为 $y_i$ 与 $wx_i+b$ 异号

设超平面 $S$ 的误分类集合为 $M$ ,则所有误分类点到超平面 $S$ 的总距离为 $−1∥w∥∑xi∈Myi(wxi+b)-\frac{1}{\Vert w \Vert}\sum_{x_i\in M}y_i(wx_i+b)$ 不考虑式中的 $−1∥w∥-\frac{1}{\Vert w \Vert}$ ,即得到感知机学习的损失函数。