noise
对于真实场景而言,大规模数据集多少会有一些noise。
数据集中的noise来源:1)来源于x,采集特征时出现错误;2)来源于y,打标签时出错。
有noise情况与理想情况区别:原来对于某个x,y是确定值;当有了noise之后,对于某个x,y是一个概率分布P(y∣x)P(y|x)P(y∣x)。
有noise情况VC bound不等式是否依然成立:如果数据集标签按照P(y∣x)P(y|x)P(y∣x)分布,且数据集是i.i.d.(独立同分布)的,那么之前证明机器可以学习的方法依然奏效——VC Dimension有限,样本足够情况下,仍可得到Ein≈EoutE_{in}\approx E_{out}Ein≈Eout。
依然成立的原因是:原来的不等式中
有noise以后只是把f(x)f(x)f(x)替换为P(y∣x)P(y|x)P(y∣x),yny_nyn替换为P(y∣xn)P(y|x_n)P(y∣xn),推导过程完全不变,所以VC bound还是成立。
有noise情况f(x)f(x)f(x)与g(x)g(x)g(x)具体含义:
在有noise情况下,当hhh尽可能接近fff时,EinE_{in}Ein是最小的,所以在这里fff仍然是机器学习的目标函数,称为ideal mini-target function,此时最终学习的ggg仍然是在尽可能模仿fff。
启发:
-
在实际的机器学习问题中,P(y|x)是未知的。但是通过选用不同的err,可以隐含地决定ideal mini-target function,也就是我们的算法学习的目标函数。
-
在实际情况中,假如20%的标签是错误的,只有80%的标签是正确的,那么机器学习的正确率的上限就是80%。
error
错误度量方法:0/1 error,squared error(一般用于回归);当然后面随着不同的任务和模型特性还会诞生很多错误评估方法。
ps. 有noise情况下,P(y∣x)P(y|x)P(y∣x)和error联合在一起,才能决定ideal mini-target function——f(x)f(x)f(x)。
weighted error
不同的样本(x_n,y_n)有不同的重要性,犯错的代价是不一样,当样本比较重要时,可以增加其error的权重。
比如样本非常不均衡的时候,我们希望样本比较少的一类更受重视一点,所以可以增加这一类error权重。因为如果不受重视,那么极端情况下只要模型将所有样本都判为样本多的那一类,error值仍然可以下降很多,但这样就失去学习的意义了。