集成方法与非线性输入变换:提升模型性能的关键策略
集成方法:Bagging与Boosting
在机器学习中,集成方法是一种强大的技术,它通过组合多个弱学习器来构建一个更强大的模型。Bagging和Boosting是两种常见的集成方法,这里我们主要关注Boosting。
基分类器的选择
在Boosting中,理论上可以使用任何分类方法作为基分类器,但在实践中,最常见的选择是浅分类树,甚至是决策树桩(深度为1的树)。这是因为Boosting能够有效地减少偏差,即使使用非常弱(高偏差)的基模型也能学习到良好的模型。浅树可以快速训练,因此是一个很好的默认选择。实践经验表明,具有少量终端节点的树作为基模型可能效果不错,但深度为1的树(在二分类中只有M = 2个终端节点)可能更常用。实际上,使用深度分类树(高方差模型)作为基分类器通常会降低性能。
Boosting的训练过程
Boosting中的基模型是顺序训练的:每次迭代引入一个新的基模型,旨在减少当前模型所犯的错误。因此,随着迭代次数B的增加,Boosting模型变得越来越灵活,但使用过多的基模型可能会导致过拟合(与Bagging不同,在Bagging中增加B不会导致过拟合)。不过,在实践中观察到,这种过拟合通常发生得很慢,并且性能对B的选择不太敏感。尽管如此,以某种系统的方式选择B仍然是一个好的做法,例如在训练过程中使用早停法。
Boosting的顺序性的另一个缺点是无法并行化训练。
Real AdaBoost
在上述方法中,我们假设每个基分类器输出一个类预测,$ \hat{y}^{(b)}(x) \in {-1,1} $。然
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



