抄书整理笔记：第二章感知机

最新推荐文章于 2025-02-18 23:37:34 发布

原创最新推荐文章于 2025-02-18 23:37:34 发布 · 210 阅读

0 ·

CC 4.0 BY-SA版权

统计学习方法专栏收录该内容

2 篇文章

订阅专栏

本文介绍了感知机这一经典的二类分类线性模型，详细解析了感知机模型的定义及几何解释，并阐述了感知机的学习策略，包括损失函数定义与最小化的方法。此外，还深入探讨了感知机学习算法的原始形式与对偶形式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感知机

感知机是二类分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取+1和-1二值。

1、感知机模型

定义2.1（感知机）假设输入空间（特征空间）是 $\cal{X} \subseteq \textbf R^n$ ，输出空间是 $\cal{Y}$ $= \{ +1,-1\}$ . 输入 $x\in\cal{X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y\in\cal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数：

f (x) = s i g n (w \cdot x + b) (1)

$f(x)=sign(w\cdot x+b) \tag{1}$
称为感知机。其中

w∈Rnw∈Rn $w\in\textbf R^n$ 叫做权值或权值向量，

b∈Rb∈R $b\in\textbf R$ 叫做偏置，

w⋅xw⋅x $w\cdot x$ 表示

ww $w$ 和

b

$b$ 的内积。

signsign $sign$ 是符号函数。
感知机是一种线性分类模型，属于判别模型。它的假设空间是定义在特征空间中的所有线性分类模型。它有如下几何解释：线性方程

w \cdot x + b = 0 (2)

$w\cdot x + b = 0 \tag{2}$
它对应于特征空间

RnRn $\textbf R^n$ 中的一个超平面

SS $S$ ，其中

w

$w$ 是超平面的法向量，

bb $b$ 是超平面的截距，该超平面把特征空间分为两个部分，对应于输出空间的两个类别所在的空间。因此感知机的学习即是求模型参数

w

$w$ 和

bb $b$ 。通过学习得到的感知机模型，可以对新的输入实例给出对应的输出类别。

2、感知机学习策略

数据集的线性可分性

定义2.2（数据集的线性可分性）给定一个数据集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中

xi∈X=Rnxi∈X=Rn $x_i\in\cal{X} = \textbf R^n$ ，

yi∈Yyi∈Y $y_i\in\cal{Y}$

={+1,−1}={+1,−1} $=\{+1,-1\}$ ，

i=1,2,...,Ni=1,2,...,N $i=1,2,...,N$ ，如果存在某个超平面

SS $S$ 能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，则称数据集

T

$T$ 为线性可分数据集，否则为线性不可分。

感知机学习策略

假设训练集线性可分，感知机学习的目标是找到能完全正确分开的超平面，我们需要确定一个学习策略来确定模型参数 $w,b$ ，那么我们要定义损失函数并将其最小化。
感知机损失函数的选择：误分类点到超平面 $S$ 的总距离
定义：输入空间 $\textbf R^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离 $d$ ：

d = 1 ∥ w ∥ | w \cdot x 0 + b |

$d=\frac 1{\|w\|}|w\cdot x_0 +b|$

公式推导：
设点 $x_0$ 在平面 $S$ 上的投影为 $x_1$ ，则有 $w\cdot x_1 +b = 0,w\cdot x_1=-b$
由于向量 $\vec{x_0x_1}$ 与 $S$ 平面上的法向量 $w$ 平行，则有
$|w\cdot\vec{x_0x_1}|=|w||\vec{x_0x_1}|=\sqrt{(w^1)^2+...+(w^N)^2}d=\|w\|d$
又 $w\cdot\vec{x_0x_1}=w\cdot(\vec{x_0}-\vec{x_1})=w\cdot x_0 - w\cdot x_1=w\cdot x_0-(-b)=w\cdot x_0+b$
所以 $\|w\|d=|w\cdot \vec{x_0x_1}=|w\cdot x_0 +b|$
即 $d=\frac 1{\|w\|}|w\cdot x_0 +b|$

因为对于误分类的数据 $(x_i,y_i)$ 来说 $-y_i(w\cdot x_i +b)>0$ 成立，因此，误分类点 $x_i$ 到超平面 $S$ 的距离是 $-\frac 1{\|w\|}y_i(w\cdot x_0 +b)$ 。这样，假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有误分类点到超平面 $S$ 的总距离为 $-\frac 1{\|w\|}\sum_{x_i\in M}y_i(w\cdot x_0 +b)$ ，不考虑 $-\frac 1{\|w\|}$ ，则感知机 $sign(w\cdot x+b)$ 学习的损失函数定义为：

$L (w, b) = - \sum x i \in M y i (w \cdot x 0 + b) (3)$ $L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_0 +b) \tag{3}$

损失函数 $L(w,b)$ 是非负的，误分类点越少，损失函数值就越小，且损失函数是 $w,b$ 的连续可导函数。

感知机学习的策略是在假设空间中选取损失函数式(3)最小的模型参数 $w,b$ ，即感知机模型。

3、感知机学习算法

感知机学习算法的原始形式

感知机学习算法实际上就是参数 $w,b$ 使其为以下损失函数极小化问题的解：

$min w, b L (w, b) = - \sum x i \in M y i (w \cdot x 0 + b) (4)$ $\min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_0 +b) \tag{4}$
算法具体采用随机梯度下降法。首先任取一超平面 $w_0,b_0$ ，然后用梯度下降法不断地极小化目标函数（4）.具体梯度下降如下：
假设误分类点集合 $M$ 是固定的，那么损失函数 $L(w,b)$ 的梯度由
$\nabla w L (w, b) = - \sum x i \in M y i x i$ $\nabla_w L(w,b)=-\sum_{x_i\in M}y_ix_i$
$\nabla b L (w, b) = - \sum x i \in M y i$ $\nabla_b L(w,b)=-\sum_{x_i\in M}y_i$
给出。
随机选取一个误分类点 $(x_i,y_i)$ ，对 $w,b$ 进行更新：
$w \leftarrow w + η y i x i (5)$ $w\gets w+\eta y_ix_i \tag{5}$
$b \leftarrow b + η y i (6)$ $b\gets b+\eta y_i \tag{6}$
式中 $\eta(0<\eta\leq 1)$ 是步长，又称为学习率。这样通过迭代可以期待损失函数不断减小直至为0。
算法2.1（感知机学习算法的原始形式）
输入：训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in\cal{X}=\textbf R^n$ ， $y_i\in\cal{Y}$ $=\{+1,-1\}$ ， $i=1,2,..., N$ ；学习率 $\eta(0<\eta\leq 1)$ ；
输出： $w,b$ ；感知机模型 $f(x)=sign(w\cdot x +b).$
(1)选取初值 $w_0,b_0$
(2)在训练集中选取数据 $(x_i,y_i)$
(3)如果 $y_i(w\cdot x_i +b)\leq0$
$w \leftarrow w + η y i x i$ $w\gets w+\eta y_ix_i$
$b \leftarrow b + η y i$ $b\gets b+\eta y_i$
(4)转至(2)，直至训练集中没有误分类点。
算法的收敛性

为了便于推导，将偏置 $b$ 并入权重向量 $w$ ，记做 $\hat w = (w^T,b)^T$ ，同样也将输入向量加以扩充，加进常数1，记做 $\hat x = (x^T,1)^T$ 。这样 $\hat x \in\textbf R^{n+1},\hat w \in \textbf R^{n+1}$ 。显然 $\hat w\cdot\hat x = w \cdot x +b$ 。
定理2.1（Novikoff）设训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 是线性可分的，其中 $x_i\in\cal{X}=\textbf R^n$ ， $y_i\in\cal{Y}$ $=\{+1,-1\}$ ， $i=1,2,..., N$ ，则
（1）存在满足条件 $\|\hat w_{opt}\|=1$ 的超平面 $\hat w_{opt}\cdot\hat x=w_{opt}\cdot x + b_{opt} = 0$ 将训练集完全正确分开；且存在 $\gamma>0$ ，对所有 $i=1,2,...,N$

$y i (w^o p t \cdot x^i) = y i (w o p t \cdot x + i + b o p t) \geq γ (7)$ $y_i(\hat w_{opt}\cdot\hat x_i)=y_i(w_{opt}\cdot x+i + b_{opt})\geq\gamma \tag{7}$
（2）令 $R=\max_{1\leq i\leq N}\|\hat x_i \|$ ，则感知机算法2.1在训练集上的误分类次数 $k$ 满足不等式
$\begin{matrix} (8) & k \leq (\frac{R}{γ})^{2} \end{matrix}$ $k\leq(\frac R\gamma)^2 \tag{8}$

定理表明，误分类次数 $k$ 是有上界的。另外，感知机学习算法存在许多解，这些解与初值的选择有关。当训练集线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡。

感知机学习算法的对偶形式

对偶形式的基本想法是，将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w,b$ 。不失一般性，在算法2.1中可假设初始值 $w_0,b_0$ 均为0，对误分类点 $(x_i,y_i)$ 通过 $w\gets w+\eta y_ix_i$ 和 $b\gets b+\eta y_i$ 逐步修改 $w,b$ 。设修改 $n$ 次后，则 $w,b$ 关于 $(x_i,y_i)$ 的增量分别是 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ ，这里 $\alpha_i = n_i\eta$ 。这样从学习过程不难看出，最后学习到的 $w,b$ 可以分别表示为

$w = \sum i = 1 N α i y i x i (9)$ $w=\sum_{i=1}^N \alpha_iy_ix_i \tag{9}$
$b = \sum i = 1 N α i y i (10)$ $b=\sum_{i=1}^N \alpha_iy_i \tag {10}$
当 $\eta=1$ 时，表示第 $i$ 个实例点由于误分而进行更新的次数。
算法2.2（感知机学习算法的对偶形式）
输入：线性可分的训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in\textbf R^n$ ， $y_i\in\{+1,-1\}$ ， $i=1,2,..., N$ ；学习率 $\eta(0<\eta\leq 1)$ ；
输出： $\alpha,b$ ；感知机模型 $f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j\cdot x +b)$ 。
其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$
(1) $\alpha\gets 0,b\gets 0$
(2)在训练集中选取数据 $(x_i,y_i)$
(3)如果 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x +b)\leq0$
$α i \leftarrow α i + η$ $\alpha_i\gets\alpha_i+\eta$
$b \leftarrow b + η y i$ $b\gets b+\eta y_i$
(4)转至(2)中直到没有误分类数据。

对偶形式中训练实例仅以内积形式出现，为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的Gram矩阵

$G = [x i \cdot x j] N \times N$ $G=[x_i\cdot x_j]_{N\times N}$
与原始形式一样，感知机算法的对偶形式迭代是收敛的，存在多个解。