感知机

最新推荐文章于 2025-08-06 00:32:00 发布

GongchuangSu

最新推荐文章于 2025-08-06 00:32:00 发布

阅读量940

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：感知机机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/GongchuangSu/article/details/50774373

机器学习专栏收录该内容

2 篇文章

订阅专栏

感知机

概念

感知机（perceptron）是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。

感知机是Frank Rosenblatt在1957年提出，是神经网络与支持向量机的基础。它被视为一种最简单形式的前馈神经网络，是一种二元线性分类器。

感知机利用梯度下降法对损失函数进行极小化，提出可将训练数据进行线性划分的分离超平面，从而求得感知机模型。

感知机模型

假设输入空间（特征空间）是 $\mathcal{X} \subseteq R^n$ ，输出空间是 $\mathcal{Y} = \{+1,-1\}$ 。由输入空间到输出空间的如下函数：

f (x) = s i g n (w \cdot x + b)

$f(x)=sign(w·x+b)$
称为感知机。其中，

w $w$ 和

b $b$ 为感知机模型参数，

w∈Rn $w \in R^n$ 叫做权值（weight）或权值向量（weight vector），

b∈R $b \in R$ 叫做偏置（bias），

w⋅x $w·x$ 表示

w $w$ 和

x $x$ 的内积。

sign $sign$ 是符号函数，即：

s i g n (x) = {+ 1, - 1, x \geq 0 x < 0

$sign(x) = \left\{ \begin{array}{ll} +1, & \textrm{$x\ge0$}\\ -1, & \textrm{$x<0$}\\ \end{array} \right.$

感知机的几何解释：线性方程

w \cdot x + b = 0

$w·x+b=0$
对应于特征空间

Rn $R^n$ 中的一个超平面，其中

w $w$ 是超平面的法向量，

b $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分。该超平面

S $S$ 被称为分离超平面（separating hyperplane）。

感知机学习策略

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。

为了找出这样一个超平面，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数，但是，这种选择不易优化，故感知机采用的是误分类点到超平面 $S$ 的距离。

给定训练数据集

T = {(x 1, y 1), (x 2, y 2), \cdot \cdot \cdot (x N, y N)}

$T=\{(x_1,y_1),(x_2,y_2),···(x_N,y_N)\}$
其中，

xi∈X=Rn,yi∈Y={+1,−1},i=1,2,⋅⋅⋅,N $x_i\in \mathcal{X} = R^n,y_i\in \mathcal{Y} = \{ +1,-1\},i=1,2,···,N$ 。感知器

f(x)=sign(w⋅x+b) $f(x)=sign(w·x+b)$ 学习的损失函数定义为：

L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$L(w,b)=-\sum_{x_i\in M}y_i(w·x_i+b)$
其中，

M $M$ 为误分类点的集合，

y(w⋅x+b) $y(w·x+b)$ 称为样本点的函数间隔。

显然，损失函数 $L(w,b)$ 是非负的。如果没有误分类点，损失函数值为0。而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。

感知机学习的策略是在假设空间中选取使损失函数式最小的模型参数 $w,b$ ，即感知机模型。

感知机学习算法

可以将感知机学习问题转化为求解损失函数式的最优化问题，最优化的方法可采用随机梯度下降法。感知机学习的具体算法，包括原始形式和对偶形式。

感知学习算法的原始形式

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),···(x_N,y_N)\}$ ，其中 $x_i\in \mathcal{X} = R^n,y_i\in \mathcal{Y} = \{ +1,-1\},i=1,2,···,N$ ，学习率 $\eta(0<\eta \le1)$ ；
输出： $w,b$ ；感知机模型 $f(x)=sign(w·x+b)$ 。

（1）选取初值 $w_0,b_0$

（2）在训练集中选取数据 $(x_i,y_i)$

（3）如果 $y_i(w·x_i+b)\le 0$

w \leftarrow w + η y i x i b \leftarrow b + η y i

$w \gets w+\eta y_i x_i\\b \gets b+ \eta y_i$

（4）转至（2），直至训练集中没有误分类点。

【注意】：
1. 感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同；
2. 当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的；
3. 当训练数据集线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡。

感知学习算法的对偶形式

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),···(x_N,y_N)\}$ ，其中 $x_i\in \mathcal{X} = R^n,y_i\in \mathcal{Y} = \{ +1,-1\},i=1,2,···,N$ ，学习率 $\eta(0<\eta \le1)$ ；
输出： $w,b$ ；感知机模型 $f(x)=sign\lgroup \sum_{j=1}^{N}a_jy_jx_j·x+b \rgroup$ ，其中 $a=(a_1,a_2,···,a_N)^T$ 。

（1）选取初值 $a \gets 0,b \gets 0$

（2）在训练集中选取数据 $(x_i,y_i)$

（3）如果 $y_i\lgroup \sum_{j=1}^{N}a_jy_jx_j·x+b \rgroup \le 0$

a i \leftarrow a i + η b \leftarrow b + η y i

$a_i \gets a_i+\eta\\b \gets b+ \eta y_i$

（4）转至（2），直至训练集中没有误分类点。

参考资料

《统计学习方法》李航著

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。