1. 概念介绍:
假设输入空间(特征空间)是 ,输入空间是
Y={+1,-1}. 输入
表示实例的特征向量,对于应于输入空间(特征空间)的点;输出
表示实例的类别.由输入空间到输出空间的如下函数:
称为感知机。其中,w和b为感知机模型参数,叫做权值或者权值向量,
叫做偏置,
表示w和x的内积,sign是符合函数,即
感知机一种线性分类模型,属于判别模型。
单层感知机形象化理解:
感知机的几何解释:线性方程
对应于特征空间的中的一个超平面S,其中w是超平面的法向量,b是超平面的截距,这个超平面将特殊空间划分为两部分,位于两部分的点(特征向量)分别被分为正、负两类。因此,超平面S成为分离超平面,如图所示:
2. 感知机的学习策略
2.1关于数据集的线性可分性
定义(数据集的线性可分性)给定一个数据集 ,其中
,
,如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对于所有的
的实例i,都有
,对所有的
的实例i,有
,则称数据集T线性可分数据集,否则,称数据集T线性不可分。
2.2感知机的学习策略
假设训练数据集是线性可分的,感知机学习目标的要求是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。为了找到这样的超平面,需要知道感知机模型参数w和b,需要确定一个学习策略,即定义经验损失函数()并将损失函数极小化。
损失函数的一个自然选择是误分类点的总数,但是,这样的损失函数不是参数w和b的连续损失函数,不易优化。我们需要转变思路,可以使用误分类点到超平面的总距离来计算损失函数。思路如下:
首先写入输入空间中任一点
到超平面的距离:
这里,是w的
的范数。
对于正确分类的点满足,而对于那些误分类的数据
来说,满足
,因为误分类点线性不可能,那么误分类点
到超平面S的距离为:
这样,假设超平面S的误分类点的集合为M,那么所有的误分类点到超平面S的总距离为
不考虑,就得到感知机学习的损失函数。
给定训练数据集
其中,,
,感知机
学习的损失函数定义为