Theory of Generalization
样本外误差EoutE_{out}Eout测量了训练集D上学习的模型在unseen data上的泛化能力.EoutE_{out}Eout是基于整个输入空间X上的表现来测量的.如果使用样本集来计算模型的EoutE_{out}Eout,这些样本点必须是"unseen",没有在训练集中出现过.
对应的,样本内误差EinE_{in}Ein是基于训练集中的样本点,它评估模型在训练集上的表现.
Generalization error泛化误差. 泛化是学习中的一个关键问题.Generalization is a key issue in learning.泛化误差可以定义为EinE_{in}Ein和EoutE_{out}Eout两者之间的差异.Hoeffding不等式提供了一个泛化误差概率边界的描述.
P[∣Ein(g)−Eout(g)∣>ϵ]≤2Me−2ϵ2NP[| E_{in}(g)-E_{out}(g)| > \epsilon] \leq 2Me^{-2\epsilon^2 N}P[∣Ein(g)−Eout(g)∣>ϵ]≤2Me−2ϵ2N for any ϵ>0\epsilon > 0ϵ>0.
同时可以知道,∣Ein(g)−Eout(g)∣≤ϵ|E_{in}(g)-E_{out}(g)| \leq \epsilon∣Ein(g)−Eout(g)∣≤ϵ的概率为KaTeX parse error: Expected '}', got 'EOF' at end of input: …^{-2N\epsilon^2,也就是说Eout(g)≤Ein(g)+ϵE_{out}(g) \leq E_{in}(g) + \epsilonEout(g)≤Ein(g)+ϵ,选定一个tolerance δ\deltaδ,所以δ=2Me−2Nϵ2\delta = 2Me^{-2N\epsilon^2}δ=2Me−2Nϵ2,ϵ=12Nln2Mδ\epsilon = \sqrt{\frac1{2N} ln\frac{2M}{\delta}}ϵ=2N1lnδ2M,最终,
Eout(g)≤Ein(g)+12Nln2MδE_{out}(g) \leq E_{in}(g) + \sqrt{\frac1{2N} ln\frac{2M}{\delta}}Eout(g)≤Ein(g)+2N1lnδ2M.
这个不等式提供了一个泛化边界.
∣Ein−Eout∣≤ϵ|E_{in}-E_{out}| \leq \epsilon∣Ein−Eout∣≤ϵ,同时也保证对于所有的h∈Hh \in Hh∈H来说,Eout≥Ein−ϵE_{out} \geq E_{in} - \epsilonEout≥Ein−ϵ.对于最终的假设函数g既想让它在unseen data上表现良好,又想它是在所有假设集中做的最好的(H中不存在其他假设函数.使得Eout(h)E_{out}(h)Eout(h)比Eout(g)E_{out}(g)Eout(g)要好.).Eout(h)≥Ein(h)+ϵE_{out}(h) \geq E_{in}(h) + \epsilonEout(h)≥Ein(h)+ϵ这个边界确保不能做的更好了,因为选择的其他假设h对应EinE_{in}Ein都比g要大,因此对应的EoutE_{out}Eout也要比g要大,样本外表现相对变差.
误差边界12Nln2Mδ\sqrt{\frac1{2N} ln\frac{2M}{\delta}}2N1lnδ2M依赖于假设空间H的大小M.如果H是无限集合,那么这个边界就没有意义了(边界趋向于无限大).不幸的是,实际情况下大多数学习模型都是无限集合.
为了在无限集合H上继续讨论模型的泛化能力,我们需要对上面的式子做一些变形,想用有限的数量去代替M,这样边界就有意义了.
之前右边界M对应:
确保最终选择的函数g:∣Ein(g)−Eout(g)∣>ϵ|E_{in}(g)-E_{out}(g)| > \epsilon∣Ein(g)−Eout(g)∣>ϵ,因为g是H中的一个假设.将βm\beta_mβm代表事件"∣Ein(hm)−Eout(hm)∣>ϵ|E_{in}(h_m)-E_{out}(h_m)| > \epsilon∣Ein(hm)−Eout(hm)∣>ϵ",因此,对应不等式变为:
但是如果各个事件之间相互重叠,那么右边界就变得比实际上大得多.比如有3个假设,不同事件的面积代表对应的事件发生的概率,β1,beta2,beta3\beta_1,beta_2,beta_3β1,beta2,beta3三个事件的联合边界比3个事件对应面积小得多,尽管面积和的边界是正确的.由此推导,假设空间中如果有假设函数相差不多,就会造成大量的重叠,导致右边界比实际值大得多(放得太多!).我们需要想办法将对应的假设划分开来(归类,分成不同的类别),从而将无限的假设集变成有限的假设集.
Effective Number of Hypotheses假设空间的有效数量
介绍一个概念growth function增长函数–定义假设空间的有效数量.我们用growth function来代替上面不等式中的M,growth function是一个组合量,能度量假设空间H中假设函数之间的差异,也就是图中不同假设之间的重叠面积的大小.
对于一个2分类的目标函数,每个h∈Hh \in Hh∈H将输入空间X映射到{-1,1}上.growth function的定义是基于假设空间H中不同假设函数的数目,而且是基于有限的样本点,而不是整个输入空间X.
一个假设函数h∈Hh \in Hh∈H应用到有限样本集上x1,x2,...,xN∈Xx_1,x_2,...,x_N \in Xx1,x2,...,xN∈X,可以得到一个二分类的N元组h(x1),h(x2),...,h(xN)h(x_1), h(x_2),...,h(x_N)h(x1),h(x2),...,h(xN).N元组将N个样本集分为两类:正类,负类,这个N元组叫做dichotomy(二分)—对数据点一次结果划分.每个h∈Hh \in Hh∈H在N个数据点上都会产生一个dichotomy,但是不同的假设函数产生的dichotomy可能完全相同.
定义一 x1,x2,...,xN∈Xx_1,x_2,...,x_N \in Xx1,x2,...,xN∈X,在N个数据点上,假设空间H产生的dichotomies定义为:
H(x1,x2,...,xN)={ (h(x1),h(x2),...,h(xN))∣h∈H}H(x_1,x_2,...,x_N) = \{(h(x_1),h(x_2),...,h(x_N))|h \in H\}H(x1,x2,...,xN)={ (h(x1),h(x