Feasibility of Learning

Feasibility of Learning

NFL定理

没有免费午餐(No Free Lunch):机器学习在D以外的数据中更接近目标函数似乎时做不到的,只能保证对训练集有很好的分类结果,这种特性被称为没有免费午餐定理(NFL)。

NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。平常所说的一个学习算法比另一个算法更“优越”,效果更好,只是针对特定的问题,特定的先验信息,数据的分布,训练样本的数目,代价或奖励函数等。

解决的可能性

E i n ( h ) E_{in}(h) Ein(h)表示在抽样样本中,h(x)与 y n y_n yn不相等的概率; E o u t ( h ) E_{out}(h) Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率是多少。

M有限

Hoeffding’s inequality: E i n ( h ) E_{in}(h) Ein(h)也是PAC的。如果 E i n ( h ) E_{in}(h) Ein(h)很小,那么就能推断出 E o u t ( h ) E_{out}(h) Eout(h)小,也就是说在该数据分布P下,h与f非常接近,机器学习的模型比较准确。一般地,h如果是固定的,N很大的时候, E i n ( h ) E_{in}(h) Ein(h)小,但是并不意味着g≈f。因为h是固定的,不能保证 E i n ( h ) E_{in}(h) Ein(h)足够小,即使 E i n ( h ) E_{in}(h) Ein(h)小,也可能 E o u t ( h ) E_{out}(h) Eout(h)偏大。所以,一般会通过演算法A,选择最好的h,使 E i n ( h ) E_{in}(h) Ein(h)足够小,从而保证 E o u t ( h ) E_{out}(h) Eout(h)很小。固定的h,使用新数据进行测试,验证其错误率是多少。

Bad Sample就是 E i n E_{in} Ein E o u t E_{out} Eout差别很大,即选择过多带来的负面影响,选择过多会恶化不好的情形。根据许多次抽样的到的不同的数据集D,Hoeffding’s inequality保证了大多数的D都是比较好的情形(即对于某个h,保证 E i n E_{in} Ein),但是也有可能出现Bad Data,即 E i n E_{in} Ein E o u t E_{out} Eout差别很大的数据集D,这是小概率事件。

也就是说,不同的数据集 D n D_n Dn,对于不同的hypothesis,有可能成为Bad Data。只要 D n D_n Dn在某个hypothesis上是Bad Data,那么 D n D_n Dn就是Bad Data。只有当 D n D_n Dn在所有的hypothesis上都是好的数据,才说明 D n D_n Dn不是Bad Data,可以自由选择演算法A进行建模。那么,根据Hoeffding’s inequality,Bad Data的上界可以表示为连级(union bound)的形式:
在这里插入图片描述

M是hypothesis的个数,N是样本D的数量,即当M固定时,N变得足够大,则Bad Data的可能性更小。

M无限

  • 假设空间H的Size M是有限的,即当N足够大的时候,那么对于假设空间中任意一个假设g, E o u t ≈ E i n E_{out}≈E_{in} EoutEin
  • 利用算法A从假设空间H中,挑选一个g,使 E i n ( g ) ≈ 0 E_{in}(g)≈0 Ein(g)0,则 E o u t ≈ 0 E_{out}≈ 0 Eout0

数据集有噪音

有Noise的情况下,即数据集按照 P ( y ∣ x ) P(y|x) P(yx)概率分布,那么VC Dimension仍然成立,机器学习算法推导仍然有效。机器学习cost function常用的Error有0/1 error和squared error两类。实际问题中,对false accept和false reject应该选择不同的权重。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

love2study

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值