监督学习的可行性依赖于下面的关键问题:
由N个独立同分布的样本(X1,D1),(X2,D2),…,(Xn,Dn)
组成的训练样本是否包含了构造具有良好泛化性能的机器学习的足够信息?
计算考虑:
神经网络模型(例如单层多层感知器)必须是可控变量,使得它能够被自由地调整以达到对从未出现过的数据的最好测试性能。另一个可控变量是用于训练的样本数量。为了增加监督训练过程的实际真实性,Bottou通过考虑一个新的可控变量来介绍结算代价。这个新的可控变量就是最优精确度。
小规模学习问题
只考虑小规模学习问题时,机器学习设计者可以得到以下三个变量:
训练样本个数,N。
逼近网络函数族F的容许大小K。
引入的计算误差δ可以是0。
大规模学习问题
大规模学习问题的主动预算约束是计算时间。在处理第二类学习问题时,面对更复杂的这种,因为现在必须对计算时间T负责。
在大规模学习问题中,通过调整如下可提供变量来最小化:
样本个数,N。
逼近网络函数的容许大小K。