Lecture2 - PLA

最新推荐文章于 2022-07-30 12:32:26 发布

原创最新推荐文章于 2022-07-30 12:32:26 发布 · 438 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习同时被 2 个专栏收录

15 篇文章

订阅专栏

机器学习基石

1 篇文章

订阅专栏

本文深入探讨了感知机假说集的概念，解释了如何在假设空间中寻找最佳函数逼近未知的理想模式。通过几何方式描述了感知机的学习过程，并详细介绍了PLA算法的工作流程和收敛保证，最后分析了其优缺点。

2.1 Perceptron Hypothesis Set 感知假说集及演算

感知假说集这部分，林老师主要是举了个线性回归的例子，来帮我们感性地认识了 h 这个东西到底是什么。
比如说线性回归：

$h = sign(w^Tx)$

以上说明了h是一个假设空间集，我们希望在h里面能找到一个g，使它最接近f。

这里f是指存在的一种理想化的规律或模式，是我们不知道的，但是我们的data都是依照这种模式产生的；因为f我们不知道，但是我们有data，所以我们可以根据data来找一个g，使g这个函数在我们已知的data上表现的尽可能像f这个理想化的函数。

那么如何用几何的方式来描述上述过程呢？
我们知道w，x都可以描述成向量形式，尽管他们可能不是二维的，我们为了方便起见，假设它们都是二维的。
当实际的 $y$ 为+1，而预测的 $y$ 为-1时，我们更新 $w$ ,

可以看到，这里的向量加法， $w+yx$ 是让，更新后的 $w$ ，更偏向x这条向量线（ $x$ 与更新后的 $w$ 的夹角变小）。
当实际的 $y$ 为-1，而预测的 $y$ 为+1时，我们更新 $w$ ,

可以看到，这里的向量加法， $w+yx$ 是让，更新后的 $w$ ，更远离 $x$ 这条向量线（ $x$ 与更新后的 $w$ 的夹角变大）。

2.2 PLA算法流程

1、假设训练数据集是线性可分的

input：training data $\{$(x^1,y^1),(x^2,y^2),(...),(x^n,y^n)$\}$

output: $W$

(1)选取初始值 $W$_0$

(2)从训练集选取样本 $(x^i,y^i)$

(3）如果 $y$_iw_t^Tx$_i < 0$ ,更新 $w$_{t+1} = w$_t + \eta$y$_ix$_i$

(4)转至（2）知道训练集样本被全部正确分类。

2.3 Guarantee of PLA

1、PLA收敛的一个必要条件是数据是线性可分的，也就是存在某个完美的 $w$_f$ 使得 $sign(w$_f^Tx$_n) = y_n$

预测正确的时候：

$w$_f$ 为完美超平面对应的法向量

$y$_{n(t)}w$_t^Tx$_{n(t)} \geq \min\limits_{n} y$_{n}w$_f^Tx$_n > 0$ 式（1）

通常以两个向量的内积的大小反应两个向量的越接近（但是仍需要考虑向量模大小，这里事实可以反应相似度）

更新 $w$_t$ 则有

$\noindent w$_f^Tw$_{t+1} = w$_f^T(w$_t + y$_{n(t)}x$_{n(t)})$ 式（2）

$\geq w$_f^Tw$_t + \min \limits_n y$_nw$_f^Tx$_n$

$> w$_f^Tw$_t + 0$

可以发现 $w$_f^Tw$_t$ 随着错误的更新不断地增大，可能是向量的模在增大，或者是夹角的余弦越来越大。

预测错误的时候有：

$y$_{n(t)}w$_t^Tx$_{n(t)} \leq 0$ 式（3）

此时

$||w$_{t+1}||$^2 = ||w$_t+y$_nx$_n||$^2$ 式（4）

$=||w$_t||^2 + 2y$_nx$_nw$_t + ||y$_nx$_n||^2$

$\leq ||w$_t||^2 + 0 + ||y$_{n(t)}x$_{n(t)}||^2$

$\leq ||w$_t||^2 + \max\limits_n||y$_nx$_n||^2$

这里，start from $w$_0$ = 0, after $T$ mistake corrections,有：

$\frac{w_f^T}{w_f} \frac{w_T}{w_T} \geq \sqrt{T} \cdot constant$ 式（5）

由式（2）有

$w$_f^Tw$_{t+1} \geq w$_f^Tw$_t + \min\limits_ny$_nw$_f^Tx$_n$

则有

$w$_f^Tw$_t\geq w$_f^Tw$_{t-1} + \min\limits_ny$_nw$_f^Tx$_n$

$w$_f^Tw$_{t+1} \geq w$_f^Tw$_{t-1} + 2\cdot\min\limits_ny$_nw$_f^Tx$_n$

迭代有

$w$_f^Tw$_{t+1} \geq w$_f^Tw$_0 + (T^\alpha + 1) \cdot\min\limits_ny$_nw$_f^Tx$_n$ 式（6）

其中 $T^\alpha$ 表示迭代次数 $T$ 表示转置

由式（4）有

$||w$_{t+1}||^2 \leq ||w$_t||^2 + \max\limits_n||y$_nx$_n||^2$

即

$||w$_t||^2 \leq ||w$_{t-1}||^2 + \max\limits_n||y$_nx$_n||^2$

$||w$_{t+1}||^2 \leq ||w$_0||^2 + (T^\alpha+1)\max\limits_n||y$_nx$_n||^2$ 式（7）

根据式 (5) 及式（6）式（7）

$\frac{w_f^Tw_T}{||w_f^T||\cdot||w_T||} \geq \frac{T^\alpha\cdot\min\limits_ny_nw_f^Tx_n}{||w_f^T||\cdot||w^T||} \geq\frac{T^\alpha\cdot\min\limits_ny_nw_f^Tx_n}{||w_f^T||\cdot\sqrt{T^\alpha}\cdot\max\limits_n||y_nx_n||)}$

所以

$constant = \frac{\min\limits_ny_nw_f^Tx_n}{||w_f^T||\max\limits_n||y_nx_n||}$ 式（8）

因为

$0 \leq \sqrt{T^\alpha} \cdot constant \leq 1$ 式（9）

$T ^\alpha\leq \frac{1}{constant^2}$ 式（10）

$\leq \frac{||w_f^T||^2 \cdot\max\limits_n\||x_n||^2}{||\min\limits_ny_nw_f^Tx_n||^2}$ 式（11）

所以

$T^\alpha \leq \frac{R^2}{\rho^2}$

2.4优缺点

优点：速度快，代码简单。

缺点：算法进行之前不知道数据是否可分，不知道什么时候可以终止。

参考：

https://blog.youkuaiyun.com/hulingyu1106/article/details/51212632 PLA 训练过程

https://blog.youkuaiyun.com/sjz_hahalala479/article/details/81003517 PLA 证明

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。