机器学习中的偏差 - 方差权衡与k近邻算法
1. 偏差 - 方差权衡
1.1 偏差与方差的概念
从另一个角度看,过拟合问题可以理解为偏差(bias)和方差(variance)之间的权衡。这两者衡量的是,如果多次使用不同的训练数据集(来自同一总体)重新训练模型,会出现什么情况。
例如,零次模型(degree 0 model)对于任何训练集(来自同一总体)都会产生很多错误,这意味着它具有高偏差。然而,任意两个随机选择的训练集应该会得到非常相似的模型(因为任意两个随机选择的训练集的平均值应该非常相似),所以我们说它具有低方差。高偏差和低方差通常对应于欠拟合。
相反,九次模型(degree 9 model)能完美拟合训练集,它的偏差非常低,但方差非常高(因为任意两个训练集可能会产生非常不同的模型),这对应于过拟合。
1.2 解决模型问题的方法
当模型表现不佳时,思考偏差和方差有助于我们找到解决办法:
- 高偏差 :如果模型具有高偏差(即即使在训练数据上表现也很差),可以尝试添加更多特征。例如,从“过拟合与欠拟合”中的零次模型到一次模型就是一个很大的改进。
- 高方差 :如果模型具有高方差,可以移除一些特征,或者获取更多的数据(如果可能的话)。
在图中,我们用不同大小的样本拟合九次多项式。基于 10 个数据点拟合的模型变化很大,而使用 100 个数据点训练时,过拟合现象会少很多。使用 1000 个数据点训练的模型看起来与一次模型非常相似。在模型复杂度不变的情况下,数据越多,越不容易过拟合。但更多的数据对解决偏
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



