Lecture2 - PLA

本文深入探讨了感知机假说集的概念,解释了如何在假设空间中寻找最佳函数逼近未知的理想模式。通过几何方式描述了感知机的学习过程,并详细介绍了PLA算法的工作流程和收敛保证,最后分析了其优缺点。

2.1 Perceptron Hypothesis Set 感知假说集及演算

感知假说集这部分,林老师主要是举了个线性回归的例子,来帮我们感性地认识了 h 这个东西到底是什么。
比如说线性回归:

                                                                  h = sign(w^Tx)

以上说明了h是一个假设空间集,我们希望在h里面能找到一个g,使它最接近f

这里f是指存在的一种理想化的规律或模式,是我们不知道的,但是我们的data都是依照这种模式产生的;因为f我们不知道,但是我们有data,所以我们可以根据data来找一个g,使g这个函数在我们已知的data上表现的尽可能像f这个理想化的函数。

那么如何用几何的方式来描述上述过程呢?
我们知道wx都可以描述成向量形式,尽管他们可能不是二维的,我们为了方便起见,假设它们都是二维的。
当实际的y为+1,而预测的y为-1时,我们更新w,


y1
可以看到,这里的向量加法,w+yx是让,更新后的w,更偏向x这条向量线(x与更新后的w的夹角变小)。
当实际的y为-1,而预测的y为+1时,我们更新w,


y2
可以看到,这里的向量加法,w+yx是让,更新后的w,更远离x这条向量线(x与更新后的w的夹角变大)。

 

2.2 PLA算法流程

1、假设训练数据集是线性可分的

input:training data  $\{$(x^1,y^1),(x^2,y^2),(...),(x^n,y^n)$\}$

output: W

(1)选取初始值W$_0

(2)从训练集选取样本 (x^i,y^i)

(3)如果 y$_iw_t^Tx$_i < 0,更新 w$_{t+1} = w$_t + \eta$y$_ix$_i

(4)转至(2)知道训练集样本被全部正确分类。

 

2.3 Guarantee of PLA

1、PLA收敛的一个必要条件是数据是线性可分的,也就是存在某个完美的w$_f使得 sign(w$_f^Tx$_n) = y_n

预测正确的时候:

w$_f 为完美超平面对应的法向量

                                                               y$_{n(t)}w$_t^Tx$_{n(t)} \geq \min\limits_{n} y$_{n}w$_f^Tx$_n > 0                   式(1)

通常以两个向量的内积的大小反应两个向量的越接近(但是仍需要考虑向量模大小,这里事实可以反应相似度)

更新 w$_t 则有

                                                                \noindent w$_f^Tw$_{t+1} = w$_f^T(w$_t + y$_{n(t)}x$_{n(t)})                     式(2)

                                                                               \geq w$_f^Tw$_t + \min \limits_n y$_nw$_f^Tx$_n

                                                                               > w$_f^Tw$_t + 0

可以发现w$_f^Tw$_t随着错误的更新不断地增大,可能是向量的模在增大,或者是夹角的余弦越来越大。

预测错误的时候有:

                                                               y$_{n(t)}w$_t^Tx$_{n(t)} \leq 0                                              式(3)   

此时

                                                                ||w$_{t+1}||$^2 = ||w$_t+y$_nx$_n||$^2                               式(4)

                                                                               =||w$_t||^2 + 2y$_nx$_nw$_t + ||y$_nx$_n||^2       

                                                                               \leq ||w$_t||^2 + 0 + ||y$_{n(t)}x$_{n(t)}||^2

                                                                               \leq ||w$_t||^2 + \max\limits_n||y$_nx$_n||^2

 

这里,start from w$_0 = 0, after T mistake corrections,有:

                                                                \frac{w_f^T}{w_f} \frac{w_T}{w_T} \geq \sqrt{T} \cdot constant                                 式(5)

由式(2)有

                                                                w$_f^Tw$_{t+1} \geq w$_f^Tw$_t + \min\limits_ny$_nw$_f^Tx$_n

则有

                                                                w$_f^Tw$_t\geq w$_f^Tw$_{t-1} + \min\limits_ny$_nw$_f^Tx$_n

                                                                w$_f^Tw$_{t+1} \geq w$_f^Tw$_{t-1} + 2\cdot\min\limits_ny$_nw$_f^Tx$_n

迭代有

                                                                w$_f^Tw$_{t+1} \geq w$_f^Tw$_0 + (T^\alpha + 1) \cdot\min\limits_ny$_nw$_f^Tx$_n   式(6)

其中T^\alpha表示迭代次数T表示转置

由式(4)有

                                                               ||w$_{t+1}||^2 \leq ||w$_t||^2 + \max\limits_n||y$_nx$_n||^2

                                                               ||w$_t||^2 \leq ||w$_{t-1}||^2 + \max\limits_n||y$_nx$_n||^2

                                                               ||w$_{t+1}||^2 \leq ||w$_0||^2 + (T^\alpha+1)\max\limits_n||y$_nx$_n||^2   式(7)

根据式 (5) 及式(6)式(7)

                                                             \frac{w_f^Tw_T}{||w_f^T||\cdot||w_T||} \geq \frac{T^\alpha\cdot\min\limits_ny_nw_f^Tx_n}{||w_f^T||\cdot||w^T||} \geq\frac{T^\alpha\cdot\min\limits_ny_nw_f^Tx_n}{||w_f^T||\cdot\sqrt{T^\alpha}\cdot\max\limits_n||y_nx_n||)}

所以

                                                              constant = \frac{\min\limits_ny_nw_f^Tx_n}{||w_f^T||\max\limits_n||y_nx_n||}                         式(8)

因为          

                                                              0 \leq \sqrt{T^\alpha} \cdot constant \leq 1                                      式(9)

                                                             T ^\alpha\leq \frac{1}{constant^2}                                                     式(10)

 

                                                              \leq \frac{||w_f^T||^2 \cdot\max\limits_n\||x_n||^2}{||\min\limits_ny_nw_f^Tx_n||^2}                                     式(11)

                                                                   

所以 

                                                               T^\alpha \leq \frac{R^2}{\rho^2}

2.4优缺点

优点:速度快,代码简单。

缺点:算法进行之前不知道数据是否可分,不知道什么时候可以终止。

 

参考:

https://blog.youkuaiyun.com/hulingyu1106/article/details/51212632  PLA 训练过程

https://blog.youkuaiyun.com/sjz_hahalala479/article/details/81003517  PLA 证明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值