2.1 感知机模型
感知器就是一个二类分类的线性分类模型,输入空间是实数特征向量,输出参数是{-1,+1}的二元结果集,从输入空间到输出空间的函数如下:
f(x)=sign(wTx+b)
sign是符号函数,如果输入为正返回1,输入为负返回-1。感知机的几何解释是该函数是空间中的一个将正例与负例分开的超平面。
2.2 感知机学习策略
假设数据集是线性可分的,则其学习策略是训练集中的所有误分点距离超平面的距离之和:
−1||w||∑xi∈Myi(wTxi+b)
,其中
M
是误分点集合。
不考虑
L(w,b)=−∑xi∈Myi(wTxi+b)
2.3 感知机学习算法
2.3.1 算法描述
感知机的学习算法是对损失函数最小化的优化问题,如下:
min(w,b)L(w,b)=−∑xi∈Myi(wTxi+b)
具体采用的方法是梯度下降法。梯度是对损失函数求偏导得出,结果如下:
∇wL(w,b)=−∑xi∈Myixi
∇bL(w,b)=−∑xi∈Myi
那么对w和b的更新即为:
w←w+ηyixi
b←b+ηyi
其中η是学习率。对于每个错误分类的点,按梯度下降法进行w和b的更新,直到所有点都被正确分类。
2.3.2 算法的收敛性
(1) yn(t)wTfxn(t)≥minnynwTfxn 导出 wt 不停接近 wf
该公式表明,如果理想划分 wTf 存在的话,那么在所有被错误划分的点中,存在一个离理想超平面最近的点 xn ,所以 wTfwt+1>wTfwt+minnynwTfxn>wTfwt ,说明 wt 不停接近 wf 。
(2) ||wt|| 不会增长太快
将 ||wt+1||2 拆分成 wt 的表达式,去掉中间的负项得 ||wt+1||2≤||wt||2+maxn||xn||2 。可见其增长的最大速度是实例中范数最大的向量的范数。
(3)根据以上两式联合推导
1≥wTfwt||wf||⋅||wt||≥T−−√ρR
其中 R=maxn||xn||2,ρ=minnynwTfxn||wf|| 。上述等式的左边与右边变型即得T的上界。
2.3.3 算法的对偶形式
暂未看懂,以后再补。