林轩田《机器学习基石》(八)—— Noise and error

上一节课,我们主要介绍了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的,且有足够多N的资料,同时能够找到一个g使它的E_{in}(g)\approx 0,那么就能说明机器学习是可行的。

之前我们说过含noise的问题,现在我们看加上noise会不会对整个推导有影响?即VC bound还会不会作用的很好?

一、噪音:noise

我们看一下带noise的学习问题的流程图:

资料的noise主要来源有(以信用卡为例):

1.标签y的noise,比如一个好顾客有坏标签

2.标签y的noise,比如顾客的特征都相同但是标签却不一样。

3.资料x的noise,比如顾客信息不精确

之前的数据集是确定的,即没有Noise的,我们称为Deterministic。现在有Noise了,也就是说在某点处不再是确定分布,而是概率分布了,即对每个(x,y)出现的概率是P(y|x)。

我们仍拿罐子中的球做类比,那么之前的球要么是橙色,要么是绿色,noise的球就是不固定某种颜色了,而是某概率是橙色,其余概率是绿色。(我们要求y也是要取样来的,其实就是颜色y服从某个分布P(y|x))

现有

上述可以被证明,解释一下上面的:如果在训练和测试,对每个资料x,有,对于相应的y有

那么整个的VC结构还是会作用的很好。(即文章开头的红色字部分还是成立的)

我们今天要讲的是“分布”——对于一个x,我们可以做一个预测,最理想的预测是什么?

P(y|x)称之为目标分布(Target Distribution)。它实际的预测结果是告诉我们理想预测以及noise。

比如对于某x,有

可以看出他理想预测是‘o’,并且它的noise的概率是0.3.

而对于determinist

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值