（1）单层感知机

最新推荐文章于 2024-04-01 15:31:51 发布

原创

最新推荐文章于 2024-04-01 15:31:51 发布 · 5.8k 阅读

14 ·

CC 4.0 BY-SA版权

本文详细介绍了单层感知机的概念、几何解释、学习策略和算法，包括感知机的线性分类模型、误分类点驱动的学习过程以及原始形式和对偶形式的学习算法。通过对训练数据集的迭代更新，求解最优的超平面以实现线性可分数据集的正确划分。

1. 概念介绍：

假设输入空间（特征空间）是 $X \subseteq R^{n}$ ，输入空间是Y={+1，-1}. 输入 $x\in X$ 表示实例的特征向量，对于应于输入空间（特征空间）的点；输出 $y\in Y$ 表示实例的类别.由输入空间到输出空间的如下函数：

$\large f(x)=sign(w\cdot x+b)$

称为感知机。其中，w和b为感知机模型参数， $w\in R^{n}$ 叫做权值或者权值向量， $b\in R$ 叫做偏置， $w\cdot x$ 表示w和x的内积，sign是符合函数，即

$sign(x)=\left\{\begin{matrix} +1, \quad x \geq 0\\ -1, \quad x<0 \end{matrix}\right.$

感知机一种线性分类模型，属于判别模型。

单层感知机形象化理解：

感知机的几何解释：线性方程

$\large w\cdot x+b=0$

对应于特征空间的 $R^{^{n}}$ 中的一个超平面S，其中w是超平面的法向量，b是超平面的截距，这个超平面将特殊空间划分为两部分，位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面S成为分离超平面，如图所示：

2. 感知机的学习策略

2.1关于数据集的线性可分性

定义（数据集的线性可分性）给定一个数据集 $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}$ ，其中 $x\in X=R^{^{n}}$ ， $y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N$ ，如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对于所有的 $y_{i}=+1$ 的实例i,都有 $w\cdot x_{i}+b>0$ ，对所有的 $y_{i}=-1$ 的实例i，有 $w\cdot x_{i}+b<0$ ，则称数据集T线性可分数据集，否则，称数据集T线性不可分。

2.2感知机的学习策略

假设训练数据集是线性可分的，感知机学习目标的要求是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。为了找到这样的超平面，需要知道感知机模型参数w和b，需要确定一个学习策略，即定义经验损失函数（ $R_{emp}(f)=\frac{1}{N}L(y_{i},f(x_{i}))$ ）并将损失函数极小化。