机器学习基石——Noise and Error

noise

对于真实场景而言,大规模数据集多少会有一些noise。

数据集中的noise来源:1)来源于x,采集特征时出现错误;2)来源于y,打标签时出错。

有noise情况与理想情况区别:原来对于某个x,y是确定值;当有了noise之后,对于某个x,y是一个概率分布P(y∣x)P(y|x)P(yx)

有noise情况VC bound不等式是否依然成立:如果数据集标签按照P(y∣x)P(y|x)P(yx)分布,且数据集是i.i.d.(独立同分布)的,那么之前证明机器可以学习的方法依然奏效——VC Dimension有限,样本足够情况下,仍可得到Ein≈EoutE_{in}\approx E_{out}EinEout
依然成立的原因是:原来的不等式中​​​​​​
在这里插入图片描述
有noise以后只是把f(x)f(x)f(x)替换为P(y∣x)P(y|x)P(yx)yny_nyn替换为P(y∣xn)P(y|x_n)P(yxn),推导过程完全不变,所以VC bound还是成立。

有noise情况f(x)f(x)f(x)g(x)g(x)g(x)具体含义
在有noise情况下,当hhh尽可能接近fff时,EinE_{in}Ein是最小的,所以在这里fff仍然是机器学习的目标函数,称为ideal mini-target function,此时最终学习的ggg仍然是在尽可能模仿fff

启发

  1. 在实际的机器学习问题中,P(y|x)是未知的。但是通过选用不同的err,可以隐含地决定ideal mini-target function,也就是我们的算法学习的目标函数。

  2. 在实际情况中,假如20%的标签是错误的,只有80%的标签是正确的,那么机器学习的正确率的上限就是80%。

error

错误度量方法:0/1 error,squared error(一般用于回归);当然后面随着不同的任务和模型特性还会诞生很多错误评估方法。
ps. 有noise情况下,P(y∣x)P(y|x)P(yx)和error联合在一起,才能决定ideal mini-target function——f(x)f(x)f(x)

weighted error

不同的样本(x_n,y_n)有不同的重要性,犯错的代价是不一样,当样本比较重要时,可以增加其error的权重。
比如样本非常不均衡的时候,我们希望样本比较少的一类更受重视一点,所以可以增加这一类error权重。因为如果不受重视,那么极端情况下只要模型将所有样本都判为样本多的那一类,error值仍然可以下降很多,但这样就失去学习的意义了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值