林轩田机器学习基石笔记(第8节)——PLA循环停止条件的探讨

引言

第7节我们讨论了如何找到一条线把所有的圈圈叉叉都分在不同的两边,但是其实有一个隐含的大前提,那就是圈圈叉叉的分布必须是线性可分的,如下第1张图。如果是线性不可分那么,如下第2、3张图是无法用PLA算法把圈圈叉叉分开的。
这里写图片描述
本节课我们就讨论在线性可分的前提之下,PLA循环什么时候才能终止。

初步论证

我们知道,如果yn(t)sign(WTtXn(t))yn(t)≠sign(WtTXn(t)),那么代表WW这条向量不符合我们的要求,那么如果现在出现一条这样的线yn=sign(WfTXn),那么就说明我们已经找到一条合适的线了,这条线把所有的圈圈叉叉都分在了不同的两边。据此,我们可以做一个推论:平面上的任何圈圈或者叉叉的点到这条线的最小距离都大于0,即 min ynWTfXn>0ynWfTXn>0。亦可以推论,任何一个之前犯错误的圈圈或叉叉到这条线的距离也大于0,且大于等于最小距离,即 yn(t)WTfXn(t)yn(t)WfTXn(t)≥ min ynWTfXn>0ynWfTXn>0

那现在我们要做一件事情,那就是我们找到的这条线Wt是否接近于我们想要的Wf。这里有一个数学知识,那就是衡量两个向量是否接近,就要把这两个向量做内积,内积越大说明越接近

那么我们只要证明WTfW(t+1)WfTW(t+1)大于WTfWtWfTWt就好了!在第7节,我们知道W(t+1)W(t+1)其实就是W(t)+yXW(t)+yX,如下图:
这里写图片描述

于是有如下推导:
WTfW(t+1)=WTf(Wt+yn(t)Xn(t))WfTW(t+1)=WfT(Wt+yn(t)Xn(t))

又因为yn(t)WTfXn(t)yn(t)WfTXn(t)≥ min ynWTfXn>0ynWfTXn>0,所以代入以上式子得WTfW(t+1)WTfWt+WfTW(t+1)≥WfTWt+minynWTfXnynWfTXn

又因为 min ynWTfXn>0ynWfTXn>0,所以存在WTfW(t+1)>WTfWt+0WfTW(t+1)>WfTWt+0,得证:WTfW(t+1)>WTfWtWfTW(t+1)>WfTWt

完整流程如下:
这里写图片描述

上面的论证还有问题,进一步论证

虽然我们证明了WTfW(t+1)>WTfWtWfTW(t+1)>WfTWt,说明了WtWtWfWf的内积的确越来越大,说明两者越来越接近。但是这里我们并没有考虑向量长度的问题,如果两者长度很长,内积也会很大,所以接下来我们还要继续证明。

在第7节中,当我们找到一条错误的点X(即yn(t)sign(WTtXn(t))yn(t)≠sign(WtTXn(t))),我们就会旋转更新WW的角度,说明这个点到分割线的距离小于0,即

现在我们试着找到WtWt+1Wt+1之间的关系,首先我们队Wt+1Wt+1的绝对值(即长度)进行平方,根据下图:
这里写图片描述
我们知道Wt+1=W+yXWt+1=W+yX,那么可以推断|Wt+1|2=|Wt+yn(t)Xn(t)|2|Wt+1|2=|Wt+yn(t)Xn(t)|2,接着式子又可以转化为

|Wt+1|2=|Wt|2+2yn(t)WTtXn(t)+|yn(t)Xn(t)|2|Wt+1|2=|Wt|2+2yn(t)WtTXn(t)+|yn(t)Xn(t)|2,又因为yn(t)WTfXn(t)0yn(t)WfTXn(t)≤0

所以有|Wt+1|2|Wt|2+0+|yn(t)Xn(t)|2|Wt+1|2≤|Wt|2+0+|yn(t)Xn(t)|2. 这说明WtWt的成长与中间的yn(t)WTfXn(t)yn(t)WfTXn(t)没有太大关系,

而是靠|yn(t)Xn(t)|2|yn(t)Xn(t)|2成长。而|yn(t)Xn(t)|2|yn(t)Xn(t)|2表示任意犯错误的点,所以我们只要找到最远的一个点进行讨论,

|Wt+1|2|Wt|2+|Wt+1|2≤|Wt|2+max|yn(t)Xn(t)|2|yn(t)Xn(t)|2。又因为ynyn是+1或-1,平方后没有差别。所以完整过程如下:
这里写图片描述

结论

前面我们证明了WtWtWt+1Wt+1的内积会越来越大,现在我们又证明了WtWt每次最多长 max|yn(t)Xn(t)|2|yn(t)Xn(t)|2

WtWt会慢慢的长。而两个向量的内积不可能无限的长,最大值只能为1,所以说明循环最终会停下来。他们的关系如下:
这里写图片描述
即,从W0W0开始,经过 TT 次更新后,对 WfWtWt 进行正规化向量,并进行内积操作,最终的结果大于等于TconstantT⋅constant,其中TT代表更新次数的根号,constantconstant是一个常数。

这里涉及到一个数学概念正规化向量,定义如下:
这里写图片描述

写到这里我懵逼了,但是不管怎么样这一节就是为了证明一点:PLA算法最终会停下来!

===========================懵逼分割线===========================

欢迎大家加入Q群讨论:463255841

===========================懵逼分割线===========================

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值