10、机器学习中的集成方法与偏差 - 方差权衡

机器学习中的集成方法与偏差 - 方差权衡

1. 问题提出

在机器学习中,我们可能会遇到这样的情况:当我们训练一个婴儿体重预测模型时,通过精心设计特殊特征并增加神经网络的层数,使得训练集上的误差几乎为零。然而,当我们在医院实际应用该模型,或者在预留的测试集上评估其性能时,预测结果却完全错误。这是为什么呢?又该如何解决呢?

1.1 误差分解

机器学习模型的误差可以分解为三个部分:
- 不可约误差 :这是模型固有的误差,源于数据集中的噪声、问题的框架设定或不良的训练示例,如测量误差或混杂因素。正如其名称所示,我们对不可约误差无能为力。
- 偏差导致的误差 :指模型无法充分学习特征与标签之间的关系。具有高偏差的模型会过度简化这种关系,导致欠拟合。
- 方差导致的误差 :反映了模型在新的、未见过的数据上的泛化能力不足。具有高方差的模型对训练数据学习过度,导致过拟合。

任何机器学习模型的目标都是同时实现低偏差和低方差,但在实践中很难两者兼得,这就是所谓的偏差 - 方差权衡。例如,增加模型复杂度可以降低偏差,但会增加方差;而降低模型复杂度则会降低方差,但会引入更多偏差。

1.2 现代机器学习技术的情况

近期研究表明,当使用现代机器学习技术,如高容量的大型神经网络时,上述偏差 - 方差权衡的规律在一定程度上仍然适用。在观察到的实验中,存在一个“插值阈值”,超过该阈值后,高容量模型能够在训练集上实现零误差,同时在未见过的数据上也能保持低误差。当然,为了避免高容量模型过拟合,我们需要更大的数

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值