机器学习中的集成方法与偏差 - 方差权衡
1. 问题提出
在机器学习中,我们可能会遇到这样的情况:当我们训练一个婴儿体重预测模型时,通过精心设计特殊特征并增加神经网络的层数,使得训练集上的误差几乎为零。然而,当我们在医院实际应用该模型,或者在预留的测试集上评估其性能时,预测结果却完全错误。这是为什么呢?又该如何解决呢?
1.1 误差分解
机器学习模型的误差可以分解为三个部分:
- 不可约误差 :这是模型固有的误差,源于数据集中的噪声、问题的框架设定或不良的训练示例,如测量误差或混杂因素。正如其名称所示,我们对不可约误差无能为力。
- 偏差导致的误差 :指模型无法充分学习特征与标签之间的关系。具有高偏差的模型会过度简化这种关系,导致欠拟合。
- 方差导致的误差 :反映了模型在新的、未见过的数据上的泛化能力不足。具有高方差的模型对训练数据学习过度,导致过拟合。
任何机器学习模型的目标都是同时实现低偏差和低方差,但在实践中很难两者兼得,这就是所谓的偏差 - 方差权衡。例如,增加模型复杂度可以降低偏差,但会增加方差;而降低模型复杂度则会降低方差,但会引入更多偏差。
1.2 现代机器学习技术的情况
近期研究表明,当使用现代机器学习技术,如高容量的大型神经网络时,上述偏差 - 方差权衡的规律在一定程度上仍然适用。在观察到的实验中,存在一个“插值阈值”,超过该阈值后,高容量模型能够在训练集上实现零误差,同时在未见过的数据上也能保持低误差。当然,为了避免高容量模型过拟合,我们需要更大的数
超级会员免费看
订阅专栏 解锁全文
1131

被折叠的 条评论
为什么被折叠?



