Feasibility of Learning
NFL定理
没有免费午餐(No Free Lunch):机器学习在D以外的数据中更接近目标函数似乎时做不到的,只能保证对训练集有很好的分类结果,这种特性被称为没有免费午餐定理(NFL)。
NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。平常所说的一个学习算法比另一个算法更“优越”,效果更好,只是针对特定的问题,特定的先验信息,数据的分布,训练样本的数目,代价或奖励函数等。
解决的可能性
E i n ( h ) E_{in}(h) Ein(h)表示在抽样样本中,h(x)与 y n y_n yn不相等的概率; E o u t ( h ) E_{out}(h) Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率是多少。
M有限
Hoeffding’s inequality: E i n ( h ) E_{in}(h) Ein(h)也是PAC的。如果 E i n ( h ) E_{in}(h) Ein(h)很小,那么就能推断出 E o u t ( h ) E_{out}(h) Eout(h)小,也就是说在该数据分布P下,h与f非常接近,机器学习的模型比较准确。一般地,h如果是固定的,N很大的时候, E i n ( h ) E_{in}(h) Ein(h)小,但是并不意味着g≈f。因为h是固定的,不能保证 E i n ( h ) E_{in}(h) Ein(h)足够小,即使 E i n ( h ) E_{in}(h) Ein(h)小,也可能 E o u t ( h ) E_{out}(h) Eout(h)偏大。所以,一般会通过演算法A,选择最好的h,使 E i n ( h ) E_{in}(h) Ein(h)足够小,从而保证 E o u t ( h ) E_{out}(h) Eout(h)很小。固定的h,使用新数据进行测试,验证其错误率是多少。
Bad Sample就是 E i n E_{in} Ein和 E o u t E_{out} Eout差别很大,即选择过多带来的负面影响,选择过多会恶化不好的情形。根据许多次抽样的到的不同的数据集D,Hoeffding’s inequality保证了大多数的D都是比较好的情形(即对于某个h,保证 E i n E_{in} Ein),但是也有可能出现Bad Data,即 E i n E_{in} Ein和 E o u t E_{out} Eout差别很大的数据集D,这是小概率事件。
也就是说,不同的数据集
D
n
D_n
Dn,对于不同的hypothesis,有可能成为Bad Data。只要
D
n
D_n
Dn在某个hypothesis上是Bad Data,那么
D
n
D_n
Dn就是Bad Data。只有当
D
n
D_n
Dn在所有的hypothesis上都是好的数据,才说明
D
n
D_n
Dn不是Bad Data,可以自由选择演算法A进行建模。那么,根据Hoeffding’s inequality,Bad Data的上界可以表示为连级(union bound)的形式:
M是hypothesis的个数,N是样本D的数量,即当M固定时,N变得足够大,则Bad Data的可能性更小。
M无限
- 假设空间H的Size M是有限的,即当N足够大的时候,那么对于假设空间中任意一个假设g, E o u t ≈ E i n E_{out}≈E_{in} Eout≈Ein。
- 利用算法A从假设空间H中,挑选一个g,使 E i n ( g ) ≈ 0 E_{in}(g)≈0 Ein(g)≈0,则 E o u t ≈ 0 E_{out}≈ 0 Eout≈0。
数据集有噪音
有Noise的情况下,即数据集按照 P ( y ∣ x ) P(y|x) P(y∣x)概率分布,那么VC Dimension仍然成立,机器学习算法推导仍然有效。机器学习cost function常用的Error有0/1 error和squared error两类。实际问题中,对false accept和false reject应该选择不同的权重。