上一节课,我们主要介绍了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的,且有足够多N的资料,同时能够找到一个g使它的,那么就能说明机器学习是可行的。
之前我们说过含noise的问题,现在我们看加上noise会不会对整个推导有影响?即VC bound还会不会作用的很好?
一、噪音:noise
我们看一下带noise的学习问题的流程图:
资料的noise主要来源有(以信用卡为例):
1.标签y的noise,比如一个好顾客有坏标签
2.标签y的noise,比如顾客的特征都相同但是标签却不一样。
3.资料x的noise,比如顾客信息不精确
之前的数据集是确定的,即没有Noise的,我们称为Deterministic。现在有Noise了,也就是说在某点处不再是确定分布,而是概率分布了,即对每个(x,y)出现的概率是P(y|x)。
我们仍拿罐子中的球做类比,那么之前的球要么是橙色,要么是绿色,noise的球就是不固定某种颜色了,而是某概率是橙色,其余概率是绿色。(我们要求y也是要取样来的,其实就是颜色y服从某个分布P(y|x))
现有
上述可以被证明,解释一下上面的:如果在训练和测试,对每个资料x,有,对于相应的y有
,
那么整个的VC结构还是会作用的很好。(即文章开头的红色字部分还是成立的)
我们今天要讲的是“分布”——对于一个x,我们可以做一个预测,最理想的预测是什么?
P(y|x)称之为目标分布(Target Distribution)。它实际的预测结果是告诉我们理想预测以及noise。
比如对于某x,有
可以看出他理想预测是‘o’,并且它的noise的概率是0.3.
而对于determinist