15、集成方法与非线性输入变换:提升模型性能的关键策略

集成方法与非线性输入变换:提升模型性能的关键策略

集成方法:Bagging与Boosting

在机器学习中,集成方法是一种强大的技术,它通过组合多个弱学习器来构建一个更强大的模型。Bagging和Boosting是两种常见的集成方法,这里我们主要关注Boosting。

基分类器的选择

在Boosting中,理论上可以使用任何分类方法作为基分类器,但在实践中,最常见的选择是浅分类树,甚至是决策树桩(深度为1的树)。这是因为Boosting能够有效地减少偏差,即使使用非常弱(高偏差)的基模型也能学习到良好的模型。浅树可以快速训练,因此是一个很好的默认选择。实践经验表明,具有少量终端节点的树作为基模型可能效果不错,但深度为1的树(在二分类中只有M = 2个终端节点)可能更常用。实际上,使用深度分类树(高方差模型)作为基分类器通常会降低性能。

Boosting的训练过程

Boosting中的基模型是顺序训练的:每次迭代引入一个新的基模型,旨在减少当前模型所犯的错误。因此,随着迭代次数B的增加,Boosting模型变得越来越灵活,但使用过多的基模型可能会导致过拟合(与Bagging不同,在Bagging中增加B不会导致过拟合)。不过,在实践中观察到,这种过拟合通常发生得很慢,并且性能对B的选择不太敏感。尽管如此,以某种系统的方式选择B仍然是一个好的做法,例如在训练过程中使用早停法。

Boosting的顺序性的另一个缺点是无法并行化训练。

Real AdaBoost

在上述方法中,我们假设每个基分类器输出一个类预测,$ \hat{y}^{(b)}(x) \in {-1,1} $。然

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值