这里我们将展示如何用成长函数 ( growth function ) 表示Rademacher complexity 的上限。
定义 3.3 成长函数
定义一个假设集 H
H
的成长函数 ΠH:ℕ→ℕ 为:
∀m∈ℕ,ΠH(m)=max{x1,…,xm}⊆X|{(h(x1),…,h(xm)):h∈H}|.(3.19)
(3.19)
∀
m
∈
N
,
Π
H
(
m
)
=
max
{
x
1
,
…
,
x
m
}
⊆
X
|
{
(
h
(
x
1
)
,
…
,
h
(
x
m
)
)
:
h
∈
H
}
|
.
因此,(3.19) 表示了
m
m
个样本点最多能被假设集 H 中的假设分成
ΠH(m)
Π
H
(
m
)
种不同的情况。这提供了另一种量化假设集
H
H
的丰富度的方法。但它不像 Rademacher complexity,这种方法不依赖于随机分布 D,它完全是组合数学上的 (
combinatorial )。
X
X
是一个期望 E[X]=0 且在区间 [a,b]
[
a
,
b
]
中取值的随即变量。那么对于任意的 t>0
t
>
0
,下面的不等式成立:
E[etX]≤et2(b−a)28.(D.2)
(D.2)
E
[
e
t
X
]
≤
e
t
2
(
b
−
a
)
2
8
.
证明 证明略,以后补充。
疑问 为什么这里要引入自然指数函数和一个变量 t 呢?我认为在 Hoeffding 引理的证明中,自然指数函数的作用是提供了一个凸函数,而凸函数的性质引出了一个能去掉数学期望运算符的 bound。而 t 的作用是提供了一个自由度去控制这个 bound,使得得到的不等式更加紧致 ( tight )。
定理 3.3 Massart 引理
用 A⊆ℝm
A
⊆
R
m
代表一个有限集,其中 r=maxx∈A‖x‖2
r
=
max
x
∈
A
‖
x
‖
2
,那么下式成立 ( 我的补充:|A|
|
A
|
指的是 A
A
这个集合中的元素个数,实际上这种表达是集合的基—— cardinal,在这里,这个基的意思就是集合元素个数 ):
Eσ[1msupx∈A∑i=1mσixi]≤r2log|A|‾‾‾‾‾‾‾‾√m,(3.20)
这里 σi
σ
i
是一系列在 {−1,+1}
{
−
1
,
+
1
}
上取值的独立的符合平均分布的随机变量,x1,…,xm
x
1
,
…
,
x
m
是向量 x
x
中的元素。
证明 对于引理中不等式左侧项乘以任意 t>0
t
>
0
,然后求他的自然指数函数,得到 exp(tEσ[supx∈A∑mi=1σixi])
exp
(
t
E
σ
[
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
)
( 我的理解:为什么这么做?我认为自然指数函数和 t 的引进是为了使得不等式能够使用 Hoeffding 引理 )。使用 Jensen 不等式、重组式子、以及使用累加大于上确界这个事实,我们得到:
exp(tEσ[supx∈A∑i=1mσixi])≤=Eσ(exp[tsupx∈A∑i=1mσixi])E(supx∈Aexp[t∑i=1mσixi])≤∑x∈AEσ(exp[t∑t=1mσixi]).(1)(2)
(1)
exp
(
t
E
σ
[
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
)
≤
E
σ
(
exp
[
t
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
)
(2)
=
E
(
sup
x
∈
A
exp
[
t
∑
i
=
1
m
σ
i
x
i
]
)
≤
∑
x
∈
A
E
σ
(
exp
[
t
∑
t
=
1
m
σ
i
x
i
]
)
.
接下来通过使用
σi
σ
i
的相互独立性,通过使用 Hoeffding 引理和
r
r
的定义,可以写出:
Eσ[supx∈A∑i=1mσixi]≤log|A|t+tr22.(3.21)
E
σ
[
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
≤
log
|
A
|
t
+
t
r
2
2
.
(
3.21
)
如果我们选择使
t=2log|A|√r
t
=
2
log
|
A
|
r
,就能最小化这个上限,得到:
Eσ[supx∈A∑i=1mσixi]≤r2log|A|‾‾‾‾‾‾‾‾√.(3.22)
(3.22)
E
σ
[
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
≤
r
2
log
|
A
|
.
两边同时除以
m
m
得到引理。证毕。
使用这个结果,我们可以用成长函数表示 Rademacher complexity 的上限。
推论 3.1
G 是一族在
{−1,+1}
{
−
1
,
+
1
}
中取值的函数。那么有下式成立:
ℜm(G)≤2logΠG(m)m‾‾‾‾‾‾‾‾‾‾‾‾√.(3.23)
(3.23)
R
m
(
G
)
≤
2
log
Π
G
(
m
)
m
.
证明 对于一个固定的样本集
S=(x1,…,xm)
S
=
(
x
1
,
…
,
x
m
)
,我们使用
G|S
G
|
S
表示
G
G
中所有的函数 g 在函数值向量
(g(x1),…,g(xm))⊤
(
g
(
x
1
)
,
…
,
g
(
x
m
)
)
⊤
构成的集合。由于
g∈G
g
∈
G
,且
g
g
在 {−1,+1} 中取值,所以函数值向量的二范数是小于等于
m‾‾√
m
的 (
我的补充:或者说一定等于
m‾‾√
m
? )。我们可以使用 Massart 引理:
ℜm(G)=ES[Eσ[supu∈G|S1m∑i=1mσiui]]≤ES[m‾‾√2log|G|S|‾‾‾‾‾‾‾‾‾‾√m].
R
m
(
G
)
=
E
S
[
E
σ
[
sup
u
∈
G
|
S
1
m
∑
i
=
1
m
σ
i
u
i
]
]
≤
E
S
[
m
2
log
|
G
|
S
|
m
]
.
通过定义,可以知道
|G|S|
|
G
|
S
|
的上限——也就是
G|S
G
|
S
这个集合的元素个数的上限——是被成长函数所限制的 (
我的理解:即使函数集
G
G
的函数数目是无穷大的,由于 G|S 是它作用在固定样本集
S
S
上的结果,而 S 的样本个数是有限的,
G
G
把 S 分成的不同情况的数目也是有限的,这个数目的上限正是成长函数的值)。因此,
ℜm(G)≤ES[m‾‾√2log|G|S|‾‾‾‾‾‾‾‾‾‾√m]=2logΠG(m)m‾‾‾‾‾‾‾‾‾‾‾‾√,
R
m
(
G
)
≤
E
S
[
m
2
log
|
G
|
S
|
m
]
=
2
log
Π
G
(
m
)
m
,
VC 泛化界证明的关键在于一个称为对称引理 ( symmetrization ) 的引理,这个引理的思想就是使用一个独立样本集的统计数据去代替泛化误差这一项。这么做的原因是显而易见的,它把泛化误差中无穷样本的问题变成了有限的样本的问题。但要注意的是,这里所谓的引入新的独立样本并不代表在实际算法中要抽取另一个样本集,这个新的样本集只是在数学证明上使用。所以,这个新的样本集一般被称为“虚拟集”或者“幽灵集”。我们使用 S′=(x′1,…,x′m)
S
′
=
(
x
1
′
,
…
,
x
m
′
)
表示这个“幽灵集”。
Symmetrization 引理
设 H
H
为一个假设集,h∈H。对于任意的 t>0
t
>
0
,只要满足 mt2≥2
m
t
2
≥
2
,就有:
PrS[suph∈H|R(h)−R̂ S(h)|≥t]≤2PrS,S′[suph∈H|R̂ S′(h)−R̂ S(h)|≥t/2].
P
r
S
[
sup
h
∈
H
|
R
(
h
)
−
R
^
S
(
h
)
|
≥
t
]
≤
2
P
r
S
,
S
′
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
t
/
2
]
.
证明 首先要注意的是,引理中的概率是与样本集相关的。
称 hm
h
m
为使得 R(h)−R̂ S(h)
R
(
h
)
−
R
^
S
(
h
)
最大的假设,那么有:
Pr[suph∈H|R(h)−R̂ S(h)|≥t]=≤≤≤Pr[|R(hm)−R̂ S(hm)|≥t]11−1mt2Pr[|R̂ S′(hm)−R̂ S(hm)|≥t/2]12Pr[|R̂ S′(hm)−R̂ S(hm)|≥t/2]12Pr[suph∈H|R̂ S′(h)−R̂ S(h)|≥t/2].(1)(2)(3)(4)
(1)
P
r
[
sup
h
∈
H
|
R
(
h
)
−
R
^
S
(
h
)
|
≥
t
]
=
P
r
[
|
R
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
]
(2)
≤
1
1
−
1
m
t
2
P
r
[
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
]
(3)
≤
1
2
P
r
[
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
]
(4)
≤
1
2
P
r
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
t
/
2
]
.
首先,( 1 ) 由
hm
h
m
本身的定义得到。( 2 ) 的证明比较复杂,放在后面。由于有
mt2≥2
m
t
2
≥
2
,( 3 ) 成立。由于当
|R̂ S′(hm)−R̂ S(hm)|≥t/2
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
成立时,
suph∈H|R̂ S′(h)−R̂ S(h)|≥t/2
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
t
/
2
必然成立,但是后者成立时前者未必成立,也就是说后者成立的概率较大,故 ( 4 ) 成立。
接下来的问题就变成 ( 2 ) 的证明了。我们把问题化成
(1−1mt2)Pr[|R(hm)−R̂ S(hm)|≥t]≤Pr[|R̂ S′(hm)−R̂ S(hm)|≥t/2].
(
1
−
1
m
t
2
)
P
r
[
|
R
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
]
≤
P
r
[
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
]
.
因为样本的抽取符合某一个分布
D
D
,我们可以假设这个分布的概率密度函数为 f(S)。由于抽取样本的过程是独立的,通过定义,右式可化成:
==≥==Pr[|R̂ S′(hm)−R̂ S(hm)|≥t/2]∫S,S′1|R̂ S′(hm)−R̂ S(hm)|≥t/2⋅f(S)⋅f(S′)d(S,S′)∫Sf(S)dS∫S′1|R̂ S′(hm)−R̂ S(hm)|≥t/2⋅f(S′)dS′∫Sf(S)dS∫S′1|R(hm)−R̂ S(hm)|≥t⋅1|R(hm)−R̂ S′(hm)|<t/2⋅f(S′)dS′∫S1|R(hm)−R̂ S(hm)|≥t⋅f(S)dS∫S′1|R(hm)−R̂ S′(hm)|<t/2⋅f(S′)dS′Pr[|R(hm)−R̂ S(hm)|≥t]⋅Pr[|R(hm)−R̂ S′(hm)|<t/2].(7)(5)(8)(6)(7)(8)
(7)
P
r
[
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
]
(5)
=
∫
S
,
S
′
1
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
⋅
f
(
S
)
⋅
f
(
S
′
)
d
(
S
,
S
′
)
(8)
=
∫
S
f
(
S
)
d
S
∫
S
′
1
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
⋅
f
(
S
′
)
d
S
′
(6)
≥
∫
S
f
(
S
)
d
S
∫
S
′
1
|
R
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
⋅
1
|
R
(
h
m
)
−
R
^
S
′
(
h
m
)
|
<
t
/
2
⋅
f
(
S
′
)
d
S
′
(7)
=
∫
S
1
|
R
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
⋅
f
(
S
)
d
S
∫
S
′
1
|
R
(
h
m
)
−
R
^
S
′
(
h
m
)
|
<
t
/
2
⋅
f
(
S
′
)
d
S
′
(8)
=
P
r
[
|
R
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
]
⋅
P
r
[
|
R
(
h
m
)
−
R
^
S
′
(
h
m
)
|
<
t
/
2
]
.
由概率分布函数的定义得知 ( 5 ) 成立,这里要注意的是这个不定积分是向量的不定积分,为了便于理解还可以继续展开,把
d(S,S′)
d
(
S
,
S
′
)
展开成
dx1,…,dxm,dx′1,…,dx′m
d
x
1
,
…
,
d
x
m
,
d
x
1
′
,
…
,
d
x
m
′
,类似的运算在这个系列博客的第五部分 < 1 >中有展示。由于只要事件
|R(hm)−R̂ S(hm)|≥t
|
R
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
和事件
|R(hm)−R̂ S′(hm)|<t/2
|
R
(
h
m
)
−
R
^
S
′
(
h
m
)
|
<
t
/
2
成立,使用绝对值不等式,马上得到
|R̂ S′(hm)−R̂ S(hm)|≥t/2
|
R
^
S
′
(
h
m
)
−
R
^
S
(
h
m
)
|
≥
t
/
2
成立,因此 ( 6 ) 成立。由于在 ( 6 ) 中已经把
S′
S
′
和
S
S
的耦合解开了,( 7 ) 直接把他们分开,此时两个不定积分可以独立计算,根据概率分布函数的定义 ( 8 ) 成立。
≤≤===≤Pr[|R(hm)−R̂ S′(hm)|<t/2]Pr[|R(hm)−R̂ S′(hm)|≥t/2]4VarR̂ S′(hm)t24Var[1m∑mi=11hm(x′i)≠y′i]t24Var[∑mi=11hm(x′i)≠y′i]m2t24Var[1hm(x′)≠y′]mt21mt2.(9)(10)(9)(11)(12)(10)(11)
(9)
P
r
[
|
R
(
h
m
)
−
R
^
S
′
(
h
m
)
|
<
t
/
2
]
(10)
≤
P
r
[
|
R
(
h
m
)
−
R
^
S
′
(
h
m
)
|
≥
t
/
2
]
(9)
≤
4
V
a
r
R
^
S
′
(
h
m
)
t
2
(11)
=
4
V
a
r
[
1
m
∑
i
=
1
m
1
h
m
(
x
i
′
)
≠
y
i
′
]
t
2
(12)
=
4
V
a
r
[
∑
i
=
1
m
1
h
m
(
x
i
′
)
≠
y
i
′
]
m
2
t
2
(10)
=
4
V
a
r
[
1
h
m
(
x
′
)
≠
y
′
]
m
t
2
(11)
≤
1
m
t
2
.
其中,由于符合切比雪夫不等式的要求,( 9 ) 成立。( 10 ) 中的
x′
x
′
和
y′
y
′
分别是从分布
D
D
中取一次样得到的一个样本和它的标签,由于样本集 S′ 中每个样本都是独立采样的,且它们的分布都相同,所以他们的方差都相同且可以直接拆分出来,因此 ( 10 ) 成立。由方差的定义,我们可以知道当随机变量的值只为
0
0
或者 1 时,它的方差必然小于等于
14
1
4
( 关键在于这个时候有
Pr[x=1]=E[x]
P
r
[
x
=
1
]
=
E
[
x
]
),故 ( 11 ) 成立。把这个结果代回去,证毕。
VC 泛化界的证明
由于对称引理,我们可以把 VC 泛化界写成:
Pr[suph∈H|R(h)−R̂ (h)|>ϵ]≤2PrS,S′[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2].
P
r
[
sup
h
∈
H
|
R
(
h
)
−
R
^
(
h
)
|
>
ϵ
]
≤
2
P
r
S
,
S
′
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
]
.
把上式右侧看成先从样本空间中采一个
2m
2
m
个样本的样本集
D
,然后随机从这个
2m
2
m
中样本中选择
m
m
个样本作为样本集 S,剩下的样本构成样本集
S′
S
′
,然后假设在这两个样本集中的经验误差的差距大于
ϵ/2
ϵ
/
2
的概,从而有:
=≤=2Pr[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2]∫Pr[]Pr[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]dsupPr[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]⋅∫Pr[]dsupPr[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣].(13)(14)(15)(16)
(13)
2
P
r
D
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
]
(14)
=
∫
D
P
r
[
D
]
P
r
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
d
D
(15)
≤
sup
D
P
r
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
⋅
∫
D
P
r
[
D
]
d
D
(16)
=
sup
D
P
r
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
.
其中使用了全概率公式。
根据成长函数的定义,假设集 H
H
中的所有假设最多能够把样本集 分成 ΠH(2m)
Π
H
(
2
m
)
种情况,也就是说 R̂ S′(h)
R
^
S
′
(
h
)
和 R̂ S(h)
R
^
S
(
h
)
最多有 ΠH(2m)
Π
H
(
2
m
)
种不同的情况,所以假设这些情况下对应的假设分别是 h1,…,hΠH(2m)
h
1
,
…
,
h
Π
H
(
2
m
)
,有:
=≤≤supPr[suph∈H|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]supPr[suph∈{h1,…,hΠH(2m)}|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]sup∑m=1ΠH(2m)Pr[|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣]ΠH(2m)×supsuph∈HPr[|R̂ S′(h)−R̂ S(h)|≥ϵ/2∣∣∣].(17)(18)(12)(19)
(17)
sup
D
P
r
[
sup
h
∈
H
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
(18)
=
sup
D
P
r
[
sup
h
∈
{
h
1
,
…
,
h
Π
H
(
2
m
)
}
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
(12)
≤
sup
D
∑
m
=
1
Π
H
(
2
m
)
P
r
[
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
(19)
≤
Π
H
(
2
m
)
×
sup
D
sup
h
∈
H
P
r
[
|
R
^
S
′
(
h
)
−
R
^
S
(
h
)
|
≥
ϵ
/
2
|
D
]
.
其中 ( 12 ) 中使用了 union bound。如果我们再对上式右侧进行一点修改使得原式变成:
ΠH(2m)×supsuph∈HPr[|R̂ S(h)−R̂ S(h)+R̂ S′(h)2|≥ϵ/4∣∣∣].
Π
H
(
2
m
)
×
sup
D
sup
h
∈
H
P
r
[
|
R
^
S
(
h
)
−
R
^
S
(
h
)
+
R
^
S
′
(
h
)
2
|
≥
ϵ
/
4
|
D
]
.
由经验误差的定义我们可以知道
R̂ S(h)+R̂ S′(h)2
R
^
S
(
h
)
+
R
^
S
′
(
h
)
2
其实就是样本
D
中一个样本出错的均值,而
R̂ S(h)
R
^
S
(
h
)
是
m
m
个样本中出错的样本数总和。可以看到这个式子和前面讲到的 Hoeffding 不等式的左侧差不多了,只有一个差距:这里的抽样是无放回的抽样,也就是说每抽取一个样本,下一个样本的分布都会改变,而之前的抽样都是独立同分布。事实上对于无放回抽样,同样有它的 Hoeffding 不等式,并且它的 Hoeffding 不等式和有放回的是一样的 ( Hoeffding, 1962 )。要注意的是,Hoeffding 不等式与随机变量的具体分布式无关的,也就是说在这里无论对于任何的样本集 和任意的假设
h
h
( 包括使得目标概率最大的那个样本集和假设 ),都有:
Pr[|R̂ S(h)−R̂ S(h)+R̂ S′(h)2|≥ϵ/4∣∣∣]≤2e−18ϵ2m.
这样,VC 泛化限得证。这个推导过程一步一步地把多个变量固定,仅留下一个变量,最终用 Hoeffding 不等式解决问题。影响目标事件的因素有假设的选取、样本集
D
的抽取、样本的分配,证明过程先后固定了前二者,最后通过在后者上使用大数定律给出上限。