10、机器学习中的集成方法与偏差 - 方差权衡

最新推荐文章于 2025-12-04 22:05:42 发布

d6e7f8

最新推荐文章于 2025-12-04 22:05:42 发布

阅读量75

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习设计模式精解文章标签：机器学习集成方法偏差-方差权衡

本文链接：https://blog.youkuaiyun.com/d6e7f8/article/details/151339559

机器学习设计模式精解专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的集成方法与偏差 - 方差权衡

1. 问题提出

在机器学习中，我们可能会遇到这样的情况：当我们训练一个婴儿体重预测模型时，通过精心设计特殊特征并增加神经网络的层数，使得训练集上的误差几乎为零。然而，当我们在医院实际应用该模型，或者在预留的测试集上评估其性能时，预测结果却完全错误。这是为什么呢？又该如何解决呢？

1.1 误差分解

机器学习模型的误差可以分解为三个部分：
- 不可约误差 ：这是模型固有的误差，源于数据集中的噪声、问题的框架设定或不良的训练示例，如测量误差或混杂因素。正如其名称所示，我们对不可约误差无能为力。
- 偏差导致的误差 ：指模型无法充分学习特征与标签之间的关系。具有高偏差的模型会过度简化这种关系，导致欠拟合。
- 方差导致的误差 ：反映了模型在新的、未见过的数据上的泛化能力不足。具有高方差的模型对训练数据学习过度，导致过拟合。

任何机器学习模型的目标都是同时实现低偏差和低方差，但在实践中很难两者兼得，这就是所谓的偏差 - 方差权衡。例如，增加模型复杂度可以降低偏差，但会增加方差；而降低模型复杂度则会降低方差，但会引入更多偏差。