一、统计学习三要素
1.1 模型
感知机是二分类线性分类模型,属于判别模型,对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面。其输出为实例的类别,取
和
二值,模型预测值由以下函数给出:
其中,是符号函数,即
1.1.1 模型的假设空间
定义在特征空间中的所有线性分类模型,即函数集合。
1.2 策略---经验风险最小化
感知机算法假设数据集是线性可分的,采用基于误分类的损失函数,其含义是误分类点到超平面的总距离:
其中,是所有误分类点的集合
由于点到直线的距离可以进行归一化,因此,可以去掉,得到感知机的损失函数如下:
感知机采用经验风险最小化的策略,将求解模型参数转换成求解使损失函数最小的参数的最优化问题,即
1.3 算法---随机梯度下降法
感知机模型采用随机梯度下降法求解模型参数,包括原始形式和对偶形式两种方式。首先,随机选取一个超平面,一次随机选取一个误分类点使其梯度下降。
通过对上述最优化问题的参数求偏导,可得到参数的梯度如下:
1.3.1 原始形式
输入:训练数据集,其中,
;学习率
;
输出:;感知机模型
训练过程:
① 选取初始值;
② 在训练集中选取数据;
③ 如果,
④ 转至②,直至训练集中没有误分类点。
直观解释:当有一个实例点的误分类,即位于分离超平面的错误一侧时,则调整的值,使分离超平面向该误分类点的一侧移动,以减少该误分类点与超平面的距离,直至超过该误分类点使其被正确分类。
(1) 算法的收敛性
对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
记,
,则
。
Novikoff定理:假设训练数据集是线性可分的,,则
(1)存在满足条件的超平面
将训练数据集完全正确分开;且存在
,对所有
(2)令,则感知机算法在训练数据集上的误分类次数
满足不等式
证明:
(1)由于训练数据集是线性可分的,则存在超平面可将训练数据集完全正确分开,取此超平面为,使
。由于对有限的
,均有
所以存在
使
(2)感知机算法从开始,如果实例被误分类,则更新权重。令
是第
个误分类实例之前的扩充向量,即
则第个误分类实例的条件是
若是被
误分类的数据,则
和
的更新是
即
由此可得如下不等式1:
不等式2:
又不等1和不等式2,可得:
从而
定理表明,误分类的次数是有上届的,经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。也就是说,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。
1.3.2 对偶形式
SVM的对偶形式通过使用拉格朗日乘子解原始最优化问题的对偶问题得到;感知机没有约束条件,因此没有拉格朗日对偶形式,其通过梯度下降法解最优化问题得到其对偶形式。
感知机对偶形式的基本想法是将和
表示为实例
和标记
的线性组合的形式,通过求解其系数而求得
和
。
假设原始形式中的初值均为0,则
可以分别表示为:
其中,,
表示第
个实例点由于误分类而进行更新的次数;当
时,
等价于
。实例点更新次数越多,意味着它离分离超平面越近,也就越难正确分类,也即该实例点对学习结果影响越大。
(1)对偶形式的表示
输入:训练数据集,其中,
;学习率
;
输出:;感知机模型
,其中,
训练过程:
(1);
(2)在训练集中选取数据;
(3)如果,
(4)转至(2)直至没有错误分类数据。
对偶形式中训练实例仅以内积的形式出现。为了方便期间,可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是所谓的Gram矩阵,如下:
二、感知机算法的特点
优点:简单,易于实现,是神经网络与支持向量机的基础。
缺点:
(1)存在多个解,依赖于初值的选择,也依赖于误分类点的选择顺序;为了得到唯一的超平面,需要对分离超平面增加约束条件,这就是支持向量机的新想法;
(2)当数据集线性不可分时,感知机学习算法不收敛,迭代结果会发生震荡。
(3)感知机是线性模型,不能表示复杂的函数,如异或。