感知机

最新推荐文章于 2024-10-06 11:48:30 发布

原创最新推荐文章于 2024-10-06 11:48:30 发布 · 357 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #监督学习 #感知机

机器学习同时被 2 个专栏收录

33 篇文章

订阅专栏

监督学习

8 篇文章

订阅专栏

本文介绍了感知机模型的基本概念，包括其定义、学习策略及原始和对偶形式的算法实现。感知机是一种简单的线性分类模型，适用于解决二分类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1､感知机模型

定义：
假设输入空间是 $X⊆R^n$ ，输出空间是 $y=\{+1,-1\}$ .输入 $x∈X$ 表示实例的特征向量，对应于输入空间的点；输出 $y∈Y$ 表示实例的类别。由输入空间到输出空间的如下函数

$f (x) = s i g n (w ∙ x + b)$ $f(x)=sign(w∙x+b)$

称为感知机。其中， $w$ 和 $b$ 是感知机模型参数， $w∈R^n$ 叫作权值， $b∈R$ 叫作偏置， $w∙x$ 表示 $w$ 和 $x$ 的内积。sign是符号函数

$s i g n (x) = {+ 1, - 1, x⩾0 x<0$ $sign(x) =\begin{cases}+1, & \text{x⩾0} \\-1, & \text{x<0}\end{cases}$

感知机是二类分类的线性分类模型，属于判别模型。二类分类，所以取+1和-1二值；线性分类，所以存在超平面 $S$ 将特征空间划分为两个部分，位于两部分的点（特征向量）分别为正、负两类。

2､感知机学习策略

感知机的策略是求误分类点到超平面 $S$ 的总距离的最小值，因为感知机的数据集是线性可分的，所以也就是求误分类点到超平面 $S$ 的总距离等于0的值。
点 $x_0$ 到超平面 $S$ 的距离：

$\frac{1}{‖ w ‖} | w ∙ x_{0} + b |$ $\dfrac{1}{\|w\|}|w∙x_0+b|$
其中 $\|w\|$ 是 $L_2$ 范数（向量元数绝对值的平方和再开方）

该公式可由 $d=\dfrac{ax_0+by_0+c}{\sqrt{a^2+b^2}}$ 可推理得到。

因些误分类点到超不面 $S$ 的距离：

$- \frac{1}{‖ w ‖} y_{i} (w ∙ x_{0} + b)$ $-\dfrac{1}{\|w\|}y_i(w∙x_0+b)$

我们已经知道感知机的策略是求误分类点到超平面 $S$ 的总距离等于0的值，所以可以忽略 $\dfrac{1}{\|w\|}$ ，但不能忽略负号，因为损失函数是非负实值的函数。因此可以定义 $sign(w∙x+b)$ 的损失函数为

$L (w, b) = - \sum x i \in M y i (w ∙ x i + b)$ $L(w,b)=-\sum_{x_i∈M} y_i(w∙x_i+b)$

3､感知机算法的原始形式

1､算法
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),∙∙∙,(x_n,y_n)\}$ ，其中 $x_i∈X=R^n，y_i∈Y=\{-1,+1\}，i=1,2,∙∙∙N$ ;学习率 $\eta（0<\eta⩽1)$ ；
输出： $w，b$ ；感知机模型：

$f (x) = s i g n (w ∙ x + b)$ $f(x)=sign(w∙x+b)$
（1）选取初值 $w_0,b_0$ ，一般初值选 $w_0=0,b_0=0$
（2）在训练集中选取数据 $（x_i,y_i）$
（3）如果 $y_i(w∙x_i+b)⩽0$
$w \leftarrow w + η y i x i$ $w←w+\eta y_ix_i$
$b \leftarrow b + η y i$ $b←b+\eta y_i$
（4）转至（2），直到训练集没有误分类点。
2､算法的收剑性

4､感知机算法的对偶形式

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),∙∙∙,(x_n,y_n)\}$ ，其中 $x_i∈X=R^n，y_i∈Y=\{-1,+1\}，i=1,2,∙∙∙N$ ;学习率 $\eta（0<\eta⩽1)$ ；
输出： $\alpha,b$ ；感知模型:
$f (x) = s i g n (\sum j = 1 N α j y j x j ∙ x + b)$ $f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j∙x+b)$ .
其中 $\alpha=(\alpha_1,\alpha_2,∙∙∙,\alpha_N)^T$ .
（1） $\alpha←0,b←0$
（2）在训练集中选取数据 $（x_i,y_i）$
（3）如果
$y i (\sum j = 1 N α j y j x j ∙ x + b) ⩽ 0$ $y_i(\sum_{j=1}^N\alpha_jy_jx_j∙x+b)⩽0$
则更新参数
$α i \leftarrow α i + η$ $\alpha_i←\alpha_i+\eta$
$b \leftarrow b + η y i$ $b←b+\eta y_i$
（4）转至（2），直到训练集没有误分类数据。