感知机模型收敛性推导
证明的前提是训练数据集线性可分。现在我们想证明感知机模型是会收敛的,也就是说错误训练样例的个数存在一个上限。这个定理是Novikoff在1962年时给予证明的,我阅读其论文和李航的统计学习方法之后自己进行了推导。
首先,如果训练数据集线性可分,那么所有训练数据点到分离超平面的距离存在一个最短距离,我们记为 γ ,为了我们对分离超平面的参数的记法进行修改 w^=[wTb]T,x^=[xT1]T ,这样分离超平面可以写成 w^x^=0 ,令最终的分离超平面为 w^∗ 且其范数为1。这里我们使用一个重要的不等式进行证明——柯西不等式,我们这样使用
w^⋅w^∗≤||w^||⋅||w