[Learning-from-data]无限假设空间的可学性以及模型泛化

无限假设空间的可学性与模型泛化理论

最新推荐文章于 2024-12-18 21:16:25 发布

原创

最新推荐文章于 2024-12-18 21:16:25 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习可学性 #无限假设空间

本文深入探讨了机器学习中无限假设空间的可学性问题，介绍了模型泛化的理论，包括假设空间的有效数量、VC维、泛化边界以及样本复杂度。通过理论分析和定理证明，揭示了模型复杂度与泛化误差之间的关系，并解释了泛化边界的意义。学习曲线展示了随着训练样本数量增加，模型性能的变化趋势，强调了在偏差与方差之间寻找平衡的重要性。

Theory of Generalization

样本外误差 $E_{out}$ 测量了训练集D上学习的模型在unseen data上的泛化能力. $E_{out}$ 是基于整个输入空间X上的表现来测量的.如果使用样本集来计算模型的 $E_{out}$ ,这些样本点必须是"unseen",没有在训练集中出现过.

对应的,样本内误差 $E_{in}$ 是基于训练集中的样本点,它评估模型在训练集上的表现.

Generalization error泛化误差. 泛化是学习中的一个关键问题.Generalization is a key issue in learning.泛化误差可以定义为 $E_{in}$ 和 $E_{out}$ 两者之间的差异.Hoeffding不等式提供了一个泛化误差概率边界的描述.

$E_{in}(g)-E_{out}(g)| > \epsilon] \leq 2Me^{-2\epsilon^2 N}$ for any $ϵ>0\epsilon > 0$ .

同时可以知道, $∣Ein(g)−Eout(g)∣≤ϵ|E_{in}(g)-E_{out}(g)| \leq \epsilon$ 的概率为 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …^{-2N\epsilon^2$ ,也就是说 $Eout(g)≤Ein(g)+ϵE_{out}(g) \leq E_{in}(g) + \epsilon$ ,选定一个tolerance $δ\delta$ ,所以 $δ=2Me−2Nϵ2\delta = 2Me^{-2N\epsilon^2}$ , $ϵ=12Nln2Mδ\epsilon = \sqrt{\frac1{2N} ln\frac{2M}{\delta}}$ ,最终,

$Eout(g)≤Ein(g)+12Nln2MδE_{out}(g) \leq E_{in}(g) + \sqrt{\frac1{2N} ln\frac{2M}{\delta}}$ .

这个不等式提供了一个泛化边界.

$∣Ein−Eout∣≤ϵ|E_{in}-E_{out}| \leq \epsilon$ ,同时也保证对于所有的 $\in H$ 来说, $Eout≥Ein−ϵE_{out} \geq E_{in} - \epsilon$ .对于最终的假设函数g既想让它在unseen data上表现良好,又想它是在所有假设集中做的最好的(H中不存在其他假设函数.使得 $E_{out}(h)$ 比 $E_{out}(g)$ 要好.). $Eout(h)≥Ein(h)+ϵE_{out}(h) \geq E_{in}(h) + \epsilon$ 这个边界确保不能做的更好了,因为选择的其他假设h对应 $E_{in}$ 都比g要大,因此对应的 $E_{out}$ 也要比g要大,样本外表现相对变差.

误差边界 $12Nln2Mδ\sqrt{\frac1{2N} ln\frac{2M}{\delta}}$ 依赖于假设空间H的大小M.如果H是无限集合,那么这个边界就没有意义了(边界趋向于无限大).不幸的是,实际情况下大多数学习模型都是无限集合.

为了在无限集合H上继续讨论模型的泛化能力,我们需要对上面的式子做一些变形,想用有限的数量去代替M,这样边界就有意义了.

之前右边界M对应:

确保最终选择的函数g: $∣Ein(g)−Eout(g)∣>ϵ|E_{in}(g)-E_{out}(g)| > \epsilon$ ,因为g是H中的一个假设.将 $βm\beta_m$ 代表事件" $∣Ein(hm)−Eout(hm)∣>ϵ|E_{in}(h_m)-E_{out}(h_m)| > \epsilon$ ",因此,对应不等式变为:

但是如果各个事件之间相互重叠,那么右边界就变得比实际上大得多.比如有3个假设,不同事件的面积代表对应的事件发生的概率, $β1,beta2,beta3\beta_1,beta_2,beta_3$ 三个事件的联合边界比3个事件对应面积小得多,尽管面积和的边界是正确的.由此推导,假设空间中如果有假设函数相差不多,就会造成大量的重叠,导致右边界比实际值大得多(放得太多!).我们需要想办法将对应的假设划分开来(归类,分成不同的类别),从而将无限的假设集变成有限的假设集.

Effective Number of Hypotheses假设空间的有效数量

介绍一个概念growth function增长函数–定义假设空间的有效数量.我们用growth function来代替上面不等式中的M,growth function是一个组合量,能度量假设空间H中假设函数之间的差异,也就是图中不同假设之间的重叠面积的大小.

对于一个2分类的目标函数,每个 $\in H$ 将输入空间X映射到{-1,1}上.growth function的定义是基于假设空间H中不同假设函数的数目,而且是基于有限的样本点,而不是整个输入空间X.
一个假设函数 $\in H$ 应用到有限样本集上 $x1,x2,...,xN∈Xx_1,x_2,...,x_N \in X$ ,可以得到一个二分类的N元组 $h(x_1), h(x_2),...,h(x_N)$ .N元组将N个样本集分为两类:正类,负类,这个N元组叫做dichotomy(二分)—对数据点一次结果划分.每个 $\in H$ 在N个数据点上都会产生一个dichotomy,但是不同的假设函数产生的dichotomy可能完全相同.