关于证明PLA收敛的一点记录

本文深入探讨了感知机学习算法的基本原理,详细解释了权重更新的过程,以及如何通过迭代逼近理想权重,确保分类准确。同时,文章分析了感知机算法的收敛性,展示了数学推导过程,证明了在一定条件下,算法能够找到合适的权重参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.关于 w w w

作用:

用来预测分类的一组参数(权重)。因此学习的最终目标就是找到这样一组 w w w权重。

定义符号:

w t w_t wt表示第t次更新的权重。
w f w_f wf表示假想的完美权重。

符号说明:

w t w_t wt:表示第t次更新得到的权重,只有错误的点才能使权重更新。所以有 ( y n ( t ) , x n ( t ) ) (y_{n(t)},x_{n(t)}) (yn(t),xn(t))使得用 w t w_t wt权重无法得到正确的分类:
s i g n ( w t T x n ( t ) ) ≠ y n ( t ) sign(w_t^Tx_{n(t)}) \neq y_{n(t)} sign(wtTxn(t))̸=yn(t)
(注:不知道为什么不等于符号打出来是这样)
所以可得第t+1次的权重更新为:
w t + 1 ← w t + y n ( t ) x n ( t ) w_{t+1} \leftarrow w_t + y_{n(t)}x_{n(t)} wt+1wt+yn(t)xn(t)
w f w_f wf:完美的意思就是对于下式,任意输入一个 x x x,我们能得到正确的 y y y
y n = s i g n ( w f T x n ) y_n = sign(w_f^Tx_n) yn=sign(wfTxn)这种正确性保证了:
y n w f T x n > 0 y_nw_f^Tx_n > 0 ynwfTxn>0

2.关于 w ⋅ x w\cdot x wx指什么.

以二维为例子:

w = [ w 0 , w 1 , w 2 ] w=[w_{0},w_{1},w_{2}] w=[w0,w1,w2] x = [ 1 , x 1 , x 2 ] x=[1,x_1,x_2] x=[1,x1,x2]
w ⋅ x = w 0 + w 1 x 1 + w 2 x 2 w\cdot x=w_{0}+w_{1}x_1+w_{2}x_2 wx=w0+w1x1+w2x2
w ⋅ x = 0 w\cdot x=0 wx=0表示的是一条直线。 ∣ w 0 ∣ |w_{0}| w0表示原点到这条直线的距离。如果 w 0 w_0 w0为零,那么这条直线将始终过原点。

推广:

随时维度的升高 w ⋅ x = 0 w\cdot x=0 wx=0从线到平面到超平面,不变的是都将数据线性分割为两类。

3.关于PLA收敛

前提:

w w w从0向量开始更新。

思想:

收敛意味着我们训练的 w t w_t wt在向我们假想的完美的 w f w_f wf靠近。两个向量靠近意味着他们的夹角在减小。因此考虑:
w f T ∣ ∣ w f ∣ ∣ w t ∣ ∣ w t ∣ ∣ = cos ⁡ α ≤ 1 \frac{w_f^T}{||w_f||}\frac{w_t}{|| w_t ||}=\cos \alpha \leq1 wfwfTwtwt=cosα1
α \alpha α w f w_f wf w t w_t wt的夹角。

第一个不等式:

首先有:
s i g n ( w t T x n ( t ) ) ≠ y n ( t ) ⇒ y n ( t ) w t T x n ( t ) ≤ 0 sign(w^T_tx_{n(t)}) \neq y_{n(t)} \Rightarrow y_{n(t)}w^T_tx_{n(t)} \leq 0 sign(wtTxn(t))̸=yn(t)yn(t)wtTxn(t)0
∣ ∣ w t + 1 ∣ ∣ 2 = ∣ ∣ w t + y n ( t ) x n ( t ) ∣ ∣ = ∣ ∣ w t ∣ ∣ + 2 y n ( t ) w t T x n ( t ) + ∣ ∣ y n ( t ) x n ( t ) ∣ ∣ 2 ≤ ∣ ∣ w t ∣ ∣ + ∣ ∣ y n ( t ) x n ( t ) ∣ ∣ 2 ≤ ∣ ∣ w t ∣ ∣ + max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 ≤ ∣ ∣ w t − 1 ∣ ∣ + 2 max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 . . . . . . ≤ ( t + 1 ) ⋅ max ⁡ n ∣ ∣ y n x n ∣ ∣ 2 = ( t + 1 ) ⋅ max ⁡ n ∣ ∣ x n ∣ ∣ 2 \begin{aligned} ||w_{t+1}||^2 &= ||w_t + y_{n(t)} x_{n(t)} || \\ &= ||w_t|| + 2y_{n(t)} w_t^T x_{n(t)} + ||y_{n(t)}x_{n(t)}||^2\\ & \leq ||w_{t}|| + ||y_{n(t)}x_{n(t)}||^2 \\ & \leq ||w_{t}|| + \max_n ||y_n x_n||^2 \\ & \leq ||w_{t-1}|| + 2\max_n||y_n x_n||^2 \\ &...... \\ &\leq (t+1)\cdot\max_n||y_n x_n||^2 \\ & = (t + 1) \cdot \max_n||x_n||^2 \end{aligned} wt+12=wt+yn(t)xn(t)=wt+2yn(t)wtTxn(t)+yn(t)xn(t)2wt+yn(t)xn(t)2wt+nmaxynxn2wt1+2nmaxynxn2......(t+1)nmaxynxn2=(t+1)nmaxxn2
即得到:
∣ ∣ w t ∣ ∣ 2 ≤ t ⋅ max ⁡ n ∣ ∣ x n ∣ ∣ 2 ∣ ∣ w t ∣ ∣ ≤ t ⋅ max ⁡ n ∣ ∣ x n ∣ ∣ \begin{aligned} &||w_t||^2 \leq t\cdot\max_n||x_n||^2\\ &||w_t|| \leq \sqrt t \cdot \max_n||x_n|| \end{aligned} wt2tnmaxxn2wtt nmaxxn

第二个不等式:

y n ( t ) w f t x n ( t ) y_{n(t)} w_f^t x_{n(t)} yn(t)wftxn(t)表示,在t次选择点时,该点靠近分离直线的距离。 y n ( t ) y_{n(t)} yn(t)保证了整个式子大于0。 min ⁡ n y n w f T x n \min_n y_n w_f^T x_n minnynwfTxn 表示在所有点到直线的距离中,离分离直线最近的距离。因此可以理解,任意一个点到该完美分离直线的距离都应该大于等于这个最小距离。
显然:
y n ( t ) w f T x n ( t ) ≥ min ⁡ n y n w f T x n > 0 y_{n(t)} w_f^T x_{n(t)} \ge \min_n y_n w_f^T x_n \gt 0 yn(t)wfTxn(t)nminynwfTxn>0
可得:
w f T w t = w f T ( w t − 1 + y n ( t − 1 ) x n ( t − 1 ) ) ≥ w f T ( w t − 1 + min ⁡ n y n x n ) ≥ w f T w T − 1 + min ⁡ n y n w f T x n ) ≥ w f T ( w t − 2 + min ⁡ n y n w f T x n ) + min ⁡ n y n w f T x n ) . . . . . . ≥ w f T w 0 + t ⋅ min ⁡ n y n w f T x n = t ⋅ min ⁡ n y n w f T x n \begin{aligned} w_f^T w_t & = w_f^T(w_{t-1}+y_{n(t-1)}x_{n(t-1)}) \\ & \geq w_f^T(w_{t-1}+\min_n y_n x_n) \\ & \geq w_f^T w_{T-1}+\min_n y_n w_f^T x_n) \\ & \geq w_f^T(w_{t-2} + \min_n y_n w_f^T x_n)+\min_n y_n w_f^T x_n)\\ & ...... \\ & \geq w_f^T w_0 + t \cdot \min_n y_n w_f^T x_n \\ & = t \cdot \min_n y_n w_f^T x_n \end{aligned} wfTwt=wfT(wt1+yn(t1)xn(t1))wfT(wt1+nminynxn)wfTwT1+nminynwfTxn)wfT(wt2+nminynwfTxn)+nminynwfTxn)......wfTw0+tnminynwfTxn=tnminynwfTxn
最终得到:
w f T w t ≥ t ⋅ min ⁡ n y n w f T x n w_f^T w_t \geq t\cdot\min_n y_n w_f^T x_n wfTwttnminynwfTxn

证明收敛:

两个向量的内积越大,则表明两个向量越接近。因此考虑 w f T w t w_f^T w_t wfTwt的大小。因为要考虑向量长度的影响,所以取单位向量。则考虑 w f T ∣ ∣ w f ∣ ∣ w t ∣ ∣ w t ∣ ∣ \frac{w_f^T}{||w_f||}\frac{w_t}{|| w_t ||} wfwfTwtwt,由上面两个不等式得:
w f T ∣ ∣ w f ∣ ∣ w t ∣ ∣ w t ∣ ∣ ≥ t ⋅ max ⁡ n y n w f T x n t ⋅ max ⁡ n ∣ ∣ X n ∣ ∣ = t ⋅ c o n s t a n t \begin{aligned} \frac{w_f^T}{||w_f||}\frac{w_t}{|| w_t ||} &\geq \frac{t\cdot\max_n y_n w_f^T x_n}{\sqrt t \cdot \max_n ||X_n||} \\ &= \sqrt t \cdot constant \end{aligned} wfwfTwtwtt maxnXntmaxnynwfTxn=t constant
c o n s t a n t = max ⁡ n y n w f T x n max ⁡ n ∣ ∣ x n ∣ ∣ constant=\frac{\max_n y_n w_f^T x_n}{\max_n ||x_n||} constant=maxnxnmaxnynwfTxn
w f T ∣ ∣ w f ∣ ∣ w t ∣ ∣ w t ∣ ∣ = cos ⁡ α \frac{wf^T}{||w_f||}\frac{w_t}{|| w_t ||}=\cos \alpha wfwfTwtwt=cosα, α \alpha α w f w_f wf w T w_T wT的夹角。所以:
w f T ∣ ∣ w f ∣ ∣ w t ∣ ∣ w t ∣ ∣ ≤ 1 \frac{w_f^T}{||w_f||}\frac{w_t}{||w_t ||} \leq1 wfwfTwtwt1即:
t ⋅ c o n s t a n t ≤ 1 \sqrt t \cdot constant \leq1 t constant1
所以: t ≤ 1 c o n s t a n t 2 t\leq \frac{1}{constant^2} tconstant21
所以PLA是收敛的。
(待改善和补充)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值