1.引言
在上一篇文章中,我们介绍了感知器算法的基本原理,如果只是应用的话,到这里就可以了。但是,一些同学心里可能会有疑问:为什么经过有限次的迭代就一定可以找到那个能把正负样本分开的超平面?下面会给出相关证明;最后将介绍几种由感知器衍生而来的算法,感受其中所蕴含的思想。
2.感知器收敛证明
已知条件:给定一个训练数据集\(T = \{ ({x_1},{y_1}),({x_2},{y_3}), \cdots ,({x_N},{y_N})\} \) ,
其中 \({x_i} \in {R^n},{y_i} \in \{ - 1,1\} ,i = 1,2, \cdots N\),并且数据集T是线性可分的,用数学关系式来描述线性可分:存在与 \({x_i}\)相同长度的向量u (\({\left\| u \right\|_2} = 1\) )和 \(\gamma > 0\),使得 \({y_i} \cdot ({u^T}{x_i}) \ge \gamma \)。
结论:令\(D = \mathop {\max }\limits_{1 \le i \le N} \left\| { {x_i}} \right\|\) ,则最多经过k次权值更新就可以得到分隔平面,其中,
\[k \le {\left( {\frac{D}{\gamma }} \right)^2}\]
这一定理称之为Novikoff定理。
定理证明:
假设\(({x_i},{y_i})\) 是第k次分类错误的样本; \({\theta _k}\)是第k次分类错误,并更新后的权值。
由于是误分类点,则 \(g({({x_i})^T}{\theta _k}) \ne {y_i}\),也就是说\({({x_i})^T}{\theta _k}{y_i} \le 0\)
由权值更新等式 \({\theta _{k + 1}} = {\theta _k} +