无限假设集问题 The Case of Infinite H
在上一讲中我们讲解了有限假设集的情况,在这一讲中我们将把它扩展到无限假设集的情况上。
我们先思考一种直观的思路。假设我们有一个无限假设集,它被d个参数描述。当我们将其存在计算机中时,如果以双精度浮点格式存储,则存储一个数需要64 bit的空间,所以存储假设集中的一种假设就需要64d bit这么大的空间。由于计算机中一位只表示0和1,因此我们的“无限”假设集最多包含k=2^(64d)个假设。之所以由无限变为了有限,是因为计算机在存储过程中采用了一定的近似,相当于将连续值离散化了,并且表示的数的范围也是有限的。但我们提出这种思路只是为了更好的理解无限假设集如何将上一讲中得出的结论应用下来。将K带入上一讲最后的公式中,在保证准确率高于1-δ的情况下,我们有
由这一公式可以看出,我们所需要的训练样本数近似与参数个数成正比。上述这一模型比较特殊的两点在于:1)一个无限假设集不一定可以通过k=2^64d来表示;2)我们对参数没有一个严格的限制,即我们可以改变参数的个数实现同样的效果。为了克服上面的问题,我们先介绍下一定义。
给定集合S={x1,...,xd},当假设集的假设可以处理S的任何一种标记情况时,我们称假设集H可以分离S,即对于任何标记{y1,...,yd}