(1)单层感知机

本文详细介绍了单层感知机的概念、几何解释、学习策略和算法,包括感知机的线性分类模型、误分类点驱动的学习过程以及原始形式和对偶形式的学习算法。通过对训练数据集的迭代更新,求解最优的超平面以实现线性可分数据集的正确划分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 概念介绍:

假设输入空间(特征空间)是 X \subseteq R^{n},输入空间是Y={+1,-1}. 输入x\in X 表示实例的特征向量,对于应于输入空间(特征空间)的点;输出y\in Y表示实例的类别.由输入空间到输出空间的如下函数:

                                                                        \large f(x)=sign(w\cdot x+b)

 

称为感知机。其中,w和b为感知机模型参数,w\in R^{n}叫做权值或者权值向量,b\in R叫做偏置,w\cdot x表示w和x的内积,sign是符合函数,即

                                                                       sign(x)=\left\{\begin{matrix} +1, \quad x \geq 0\\ -1, \quad x<0 \end{matrix}\right.

感知机一种线性分类模型,属于判别模型。

单层感知机形象化理解:

感知机的几何解释:线性方程

                                                                           \large w\cdot x+b=0

对应于特征空间的R^{^{n}}中的一个超平面S,其中w是超平面的法向量,b是超平面的截距,这个超平面将特殊空间划分为两部分,位于两部分的点(特征向量)分别被分为正、负两类。因此,超平面S成为分离超平面,如图所示:

 

 

2. 感知机的学习策略

2.1关于数据集的线性可分性

定义(数据集的线性可分性)给定一个数据集 T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \},其中x\in X=R^{^{n}}y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N,如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对于所有的y_{i}=+1的实例i,都有w\cdot x_{i}+b>0,对所有的y_{i}=-1的实例i,有w\cdot x_{i}+b<0,则称数据集T线性可分数据集,否则,称数据集T线性不可分。

2.2感知机的学习策略

假设训练数据集是线性可分的,感知机学习目标的要求是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。为了找到这样的超平面,需要知道感知机模型参数w和b,需要确定一个学习策略,即定义经验损失函数(R_{emp}(f)=\frac{1}{N}L(y_{i},f(x_{i})))并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数,但是,这样的损失函数不是参数w和b的连续损失函数,不易优化。我们需要转变思路,可以使用误分类点到超平面的总距离来计算损失函数。思路如下:

首先写入输入空间R^{n}中任一点x_{0}到超平面的距离:

                                                                              \large \frac{1}{\left \| w \right \|}\left | w\cdot x_{0}+b \right |  

这里,\left \|w \right \|是w的L_{2}的范数。

对于正确分类的点满足y_{i}(w\cdot x_{i}+b)>0,而对于那些误分类的数据(x_{i},y_{i})来说,满足-y_{i}(w\cdot x_{i}+b)>0,因为误分类点线性不可能,那么误分类点x_{i}到超平面S的距离为:

                                                                           \large -\frac{1}{\left \| w \right \|}y_{i}\left (w\cdot x_{0}+b \right )

这样,假设超平面S的误分类点的集合为M,那么所有的误分类点到超平面S的总距离为

                                                                           \large -\frac{1}{\left \| w \right \|} \sum_{x_{i}\in M}^{ } y_{i}\left (w\cdot x_{i}+b \right )

不考虑\frac{1}{\left \| w \right \|},就得到感知机学习的损失函数。

给定训练数据集

                                                                 \large T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N}) \right \}

其中,x\in X=R^{^{n}}y_{i}\in Y=\left \{ +1,-1 \right \},\quad i=1,2,...,N,感知机sign(w\cdot x+b)学习的损失函数定义为

                                     

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值