1.关于 w w w
作用:
用来预测分类的一组参数(权重)。因此学习的最终目标就是找到这样一组 w w w权重。
定义符号:
w
t
w_t
wt表示第t次更新的权重。
w
f
w_f
wf表示假想的完美权重。
符号说明:
w
t
w_t
wt:表示第t次更新得到的权重,只有错误的点才能使权重更新。所以有
(
y
n
(
t
)
,
x
n
(
t
)
)
(y_{n(t)},x_{n(t)})
(yn(t),xn(t))使得用
w
t
w_t
wt权重无法得到正确的分类:
s
i
g
n
(
w
t
T
x
n
(
t
)
)
≠
y
n
(
t
)
sign(w_t^Tx_{n(t)}) \neq y_{n(t)}
sign(wtTxn(t))̸=yn(t)
(注:不知道为什么不等于符号打出来是这样)
所以可得第t+1次的权重更新为:
w
t
+
1
←
w
t
+
y
n
(
t
)
x
n
(
t
)
w_{t+1} \leftarrow w_t + y_{n(t)}x_{n(t)}
wt+1←wt+yn(t)xn(t)
w
f
w_f
wf:完美的意思就是对于下式,任意输入一个
x
x
x,我们能得到正确的
y
y
y。
y
n
=
s
i
g
n
(
w
f
T
x
n
)
y_n = sign(w_f^Tx_n)
yn=sign(wfTxn)这种正确性保证了:
y
n
w
f
T
x
n
>
0
y_nw_f^Tx_n > 0
ynwfTxn>0
2.关于 w ⋅ x w\cdot x w⋅x指什么.
以二维为例子:
w
=
[
w
0
,
w
1
,
w
2
]
w=[w_{0},w_{1},w_{2}]
w=[w0,w1,w2],
x
=
[
1
,
x
1
,
x
2
]
x=[1,x_1,x_2]
x=[1,x1,x2]
w
⋅
x
=
w
0
+
w
1
x
1
+
w
2
x
2
w\cdot x=w_{0}+w_{1}x_1+w_{2}x_2
w⋅x=w0+w1x1+w2x2
w
⋅
x
=
0
w\cdot x=0
w⋅x=0表示的是一条直线。
∣
w
0
∣
|w_{0}|
∣w0∣表示原点到这条直线的距离。如果
w
0
w_0
w0为零,那么这条直线将始终过原点。
推广:
随时维度的升高 w ⋅ x = 0 w\cdot x=0 w⋅x=0从线到平面到超平面,不变的是都将数据线性分割为两类。
3.关于PLA收敛
前提:
w w w从0向量开始更新。
思想:
收敛意味着我们训练的
w
t
w_t
wt在向我们假想的完美的
w
f
w_f
wf靠近。两个向量靠近意味着他们的夹角在减小。因此考虑:
w
f
T
∣
∣
w
f
∣
∣
w
t
∣
∣
w
t
∣
∣
=
cos
α
≤
1
\frac{w_f^T}{||w_f||}\frac{w_t}{|| w_t ||}=\cos \alpha \leq1
∣∣wf∣∣wfT∣∣wt∣∣wt=cosα≤1
α
\alpha
α为
w
f
w_f
wf和
w
t
w_t
wt的夹角。
第一个不等式:
首先有:
s
i
g
n
(
w
t
T
x
n
(
t
)
)
≠
y
n
(
t
)
⇒
y
n
(
t
)
w
t
T
x
n
(
t
)
≤
0
sign(w^T_tx_{n(t)}) \neq y_{n(t)} \Rightarrow y_{n(t)}w^T_tx_{n(t)} \leq 0
sign(wtTxn(t))̸=yn(t)⇒yn(t)wtTxn(t)≤0
∣
∣
w
t
+
1
∣
∣
2
=
∣
∣
w
t
+
y
n
(
t
)
x
n
(
t
)
∣
∣
=
∣
∣
w
t
∣
∣
+
2
y
n
(
t
)
w
t
T
x
n
(
t
)
+
∣
∣
y
n
(
t
)
x
n
(
t
)
∣
∣
2
≤
∣
∣
w
t
∣
∣
+
∣
∣
y
n
(
t
)
x
n
(
t
)
∣
∣
2
≤
∣
∣
w
t
∣
∣
+
max
n
∣
∣
y
n
x
n
∣
∣
2
≤
∣
∣
w
t
−
1
∣
∣
+
2
max
n
∣
∣
y
n
x
n
∣
∣
2
.
.
.
.
.
.
≤
(
t
+
1
)
⋅
max
n
∣
∣
y
n
x
n
∣
∣
2
=
(
t
+
1
)
⋅
max
n
∣
∣
x
n
∣
∣
2
\begin{aligned} ||w_{t+1}||^2 &= ||w_t + y_{n(t)} x_{n(t)} || \\ &= ||w_t|| + 2y_{n(t)} w_t^T x_{n(t)} + ||y_{n(t)}x_{n(t)}||^2\\ & \leq ||w_{t}|| + ||y_{n(t)}x_{n(t)}||^2 \\ & \leq ||w_{t}|| + \max_n ||y_n x_n||^2 \\ & \leq ||w_{t-1}|| + 2\max_n||y_n x_n||^2 \\ &...... \\ &\leq (t+1)\cdot\max_n||y_n x_n||^2 \\ & = (t + 1) \cdot \max_n||x_n||^2 \end{aligned}
∣∣wt+1∣∣2=∣∣wt+yn(t)xn(t)∣∣=∣∣wt∣∣+2yn(t)wtTxn(t)+∣∣yn(t)xn(t)∣∣2≤∣∣wt∣∣+∣∣yn(t)xn(t)∣∣2≤∣∣wt∣∣+nmax∣∣ynxn∣∣2≤∣∣wt−1∣∣+2nmax∣∣ynxn∣∣2......≤(t+1)⋅nmax∣∣ynxn∣∣2=(t+1)⋅nmax∣∣xn∣∣2
即得到:
∣
∣
w
t
∣
∣
2
≤
t
⋅
max
n
∣
∣
x
n
∣
∣
2
∣
∣
w
t
∣
∣
≤
t
⋅
max
n
∣
∣
x
n
∣
∣
\begin{aligned} &||w_t||^2 \leq t\cdot\max_n||x_n||^2\\ &||w_t|| \leq \sqrt t \cdot \max_n||x_n|| \end{aligned}
∣∣wt∣∣2≤t⋅nmax∣∣xn∣∣2∣∣wt∣∣≤t⋅nmax∣∣xn∣∣
第二个不等式:
y
n
(
t
)
w
f
t
x
n
(
t
)
y_{n(t)} w_f^t x_{n(t)}
yn(t)wftxn(t)表示,在t次选择点时,该点靠近分离直线的距离。
y
n
(
t
)
y_{n(t)}
yn(t)保证了整个式子大于0。
min
n
y
n
w
f
T
x
n
\min_n y_n w_f^T x_n
minnynwfTxn 表示在所有点到直线的距离中,离分离直线最近的距离。因此可以理解,任意一个点到该完美分离直线的距离都应该大于等于这个最小距离。
显然:
y
n
(
t
)
w
f
T
x
n
(
t
)
≥
min
n
y
n
w
f
T
x
n
>
0
y_{n(t)} w_f^T x_{n(t)} \ge \min_n y_n w_f^T x_n \gt 0
yn(t)wfTxn(t)≥nminynwfTxn>0
可得:
w
f
T
w
t
=
w
f
T
(
w
t
−
1
+
y
n
(
t
−
1
)
x
n
(
t
−
1
)
)
≥
w
f
T
(
w
t
−
1
+
min
n
y
n
x
n
)
≥
w
f
T
w
T
−
1
+
min
n
y
n
w
f
T
x
n
)
≥
w
f
T
(
w
t
−
2
+
min
n
y
n
w
f
T
x
n
)
+
min
n
y
n
w
f
T
x
n
)
.
.
.
.
.
.
≥
w
f
T
w
0
+
t
⋅
min
n
y
n
w
f
T
x
n
=
t
⋅
min
n
y
n
w
f
T
x
n
\begin{aligned} w_f^T w_t & = w_f^T(w_{t-1}+y_{n(t-1)}x_{n(t-1)}) \\ & \geq w_f^T(w_{t-1}+\min_n y_n x_n) \\ & \geq w_f^T w_{T-1}+\min_n y_n w_f^T x_n) \\ & \geq w_f^T(w_{t-2} + \min_n y_n w_f^T x_n)+\min_n y_n w_f^T x_n)\\ & ...... \\ & \geq w_f^T w_0 + t \cdot \min_n y_n w_f^T x_n \\ & = t \cdot \min_n y_n w_f^T x_n \end{aligned}
wfTwt=wfT(wt−1+yn(t−1)xn(t−1))≥wfT(wt−1+nminynxn)≥wfTwT−1+nminynwfTxn)≥wfT(wt−2+nminynwfTxn)+nminynwfTxn)......≥wfTw0+t⋅nminynwfTxn=t⋅nminynwfTxn
最终得到:
w
f
T
w
t
≥
t
⋅
min
n
y
n
w
f
T
x
n
w_f^T w_t \geq t\cdot\min_n y_n w_f^T x_n
wfTwt≥t⋅nminynwfTxn
证明收敛:
两个向量的内积越大,则表明两个向量越接近。因此考虑
w
f
T
w
t
w_f^T w_t
wfTwt的大小。因为要考虑向量长度的影响,所以取单位向量。则考虑
w
f
T
∣
∣
w
f
∣
∣
w
t
∣
∣
w
t
∣
∣
\frac{w_f^T}{||w_f||}\frac{w_t}{|| w_t ||}
∣∣wf∣∣wfT∣∣wt∣∣wt,由上面两个不等式得:
w
f
T
∣
∣
w
f
∣
∣
w
t
∣
∣
w
t
∣
∣
≥
t
⋅
max
n
y
n
w
f
T
x
n
t
⋅
max
n
∣
∣
X
n
∣
∣
=
t
⋅
c
o
n
s
t
a
n
t
\begin{aligned} \frac{w_f^T}{||w_f||}\frac{w_t}{|| w_t ||} &\geq \frac{t\cdot\max_n y_n w_f^T x_n}{\sqrt t \cdot \max_n ||X_n||} \\ &= \sqrt t \cdot constant \end{aligned}
∣∣wf∣∣wfT∣∣wt∣∣wt≥t⋅maxn∣∣Xn∣∣t⋅maxnynwfTxn=t⋅constant
c
o
n
s
t
a
n
t
=
max
n
y
n
w
f
T
x
n
max
n
∣
∣
x
n
∣
∣
constant=\frac{\max_n y_n w_f^T x_n}{\max_n ||x_n||}
constant=maxn∣∣xn∣∣maxnynwfTxn
w
f
T
∣
∣
w
f
∣
∣
w
t
∣
∣
w
t
∣
∣
=
cos
α
\frac{wf^T}{||w_f||}\frac{w_t}{|| w_t ||}=\cos \alpha
∣∣wf∣∣wfT∣∣wt∣∣wt=cosα,
α
\alpha
α为
w
f
w_f
wf和
w
T
w_T
wT的夹角。所以:
w
f
T
∣
∣
w
f
∣
∣
w
t
∣
∣
w
t
∣
∣
≤
1
\frac{w_f^T}{||w_f||}\frac{w_t}{||w_t ||} \leq1
∣∣wf∣∣wfT∣∣wt∣∣wt≤1即:
t
⋅
c
o
n
s
t
a
n
t
≤
1
\sqrt t \cdot constant \leq1
t⋅constant≤1
所以:
t
≤
1
c
o
n
s
t
a
n
t
2
t\leq \frac{1}{constant^2}
t≤constant21
所以PLA是收敛的。
(待改善和补充)