第2章感知机

最新推荐文章于 2025-08-09 09:46:12 发布

原创最新推荐文章于 2025-08-09 09:46:12 发布 · 503 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#感知机

《统计学习方法》——李航专栏收录该内容

5 篇文章

订阅专栏

1.概述：感知机（perceptron）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1.感知机对应于输入空间（特征空间）中将数据进行划分的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行划分的分离超平面，导入基于误分类的损失函数，利用梯度下降对损失函数进行极小化，求得感知模型。感知机学习算法分为原始形式和对偶形式，是神经网络与支持向量机的基础。

2.感知机模型：

上图中，w和b是感知机模型参数，w叫做权值（weight），b叫做偏置（bias）。

3.感知机的几何解释：线性方程为w*x+b = 0。对应于特征空间R的一个超平面S，其中w是平面的法向量，b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正负两类。因此，超平面S称为分离超平面。如下图所示：

4.感知机的学习策略：感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。

5.感知机学习算法的原始形式：感知机学习算法是误分类驱动的，具体采用随机梯度下降法。

算法如下：

解：构建最优化问题：min

按照算法求解w,b。η=1.

（1）取初值 $w_0$ =0, $b_0$ =0

（2）对 $x_1$ = $$(3,3)^{T}$ , $y_1$ ( $w_0$ * $x_1$ + $b_0$ ) = 0 ,没有被正确分类，更新w,b。

$w_1$ = $w_0$ + $y_1$ $x_1$ = $(3,3)^T$ ， $b_1$ = $b_0$ + $y_1$ = 1

得到线性模型： $w_1$ · $x$ + $b_1$ = $3x^{(1)}+3x^{(2)}+1$

（3）对 $x_1,x_2$ ,显然， $y_i(w_1x_i+b_1)>0$ 被正确分类，不修改 $w,b$ ;

对 $x_3=(1,1)^T$ ， $y_3(w_1x_3+b_1)<0$ ，被误分类，更新w,b。

$w_2 = w_1+y_3x_3,b_2=b_1+y_3=0$

得到线性模型： $w_2x+b_2=2x^{(1)}+2x^{(2)}$

如此继续下去，直到 $w_7=(1,1)^3,b_7=-3$

$w_7x+b_7=x^{(1)}+x^{(2)}-3$

对所有数据点 $y_i(w_7x_i+b_7)>0,$ 没有误分类点，损失函数达到极小。

超平面为： $x^{(1)}+x^{(2)}-3=0$

感知机模型为 $f(x) = sign(x^{(1)}+x^{(2)}-3)$

迭代过程如下表：

求解的迭代过程
迭代次数	误分类点	w	b	$wx+b$
0		0	0	0
1	$x_1$	$(3,3)^{T}$	1	$3x^{(1)}+3x^{(2)}+1$
2	$x_3$	$(2,2)^T$	0	$2x^{(1)}+2x^{(2)}$
3	$x_3$	$(1,1)^T$	-1	$x^{(1)}+x^{(2)}-1$
4	$x_3$	$(0,0)^T$	-2	-2
5	$x_1$	$(3,3)^T$	-1	$3x^{(1)}+3x^{(2)}-1$
6	$x_3$	$(2,2)^T$	-2	$2x^{(1)}+2x^{(2)}-2$
7	$x_3$	$(1,1)^T$	-3	$x^{(1)}+x^{(2)}-3$
8	0	$(1,1)^T$	-3	$x^{(1)}+x^{(2)}-3$