15、集成方法与非线性输入变换：提升模型性能的关键策略

flink9streamer

于 2025-09-21 10:38:25 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门精讲文章标签：集成方法 Boosting 梯度提升

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/flink9streamer/article/details/152446751

机器学习入门精讲专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

集成方法与非线性输入变换：提升模型性能的关键策略

集成方法：Bagging与Boosting

在机器学习中，集成方法是一种强大的技术，它通过组合多个弱学习器来构建一个更强大的模型。Bagging和Boosting是两种常见的集成方法，这里我们主要关注Boosting。

基分类器的选择

在Boosting中，理论上可以使用任何分类方法作为基分类器，但在实践中，最常见的选择是浅分类树，甚至是决策树桩（深度为1的树）。这是因为Boosting能够有效地减少偏差，即使使用非常弱（高偏差）的基模型也能学习到良好的模型。浅树可以快速训练，因此是一个很好的默认选择。实践经验表明，具有少量终端节点的树作为基模型可能效果不错，但深度为1的树（在二分类中只有M = 2个终端节点）可能更常用。实际上，使用深度分类树（高方差模型）作为基分类器通常会降低性能。

Boosting的训练过程

Boosting中的基模型是顺序训练的：每次迭代引入一个新的基模型，旨在减少当前模型所犯的错误。因此，随着迭代次数B的增加，Boosting模型变得越来越灵活，但使用过多的基模型可能会导致过拟合（与Bagging不同，在Bagging中增加B不会导致过拟合）。不过，在实践中观察到，这种过拟合通常发生得很慢，并且性能对B的选择不太敏感。尽管如此，以某种系统的方式选择B仍然是一个好的做法，例如在训练过程中使用早停法。

Boosting的顺序性的另一个缺点是无法并行化训练。

Real AdaBoost

在上述方法中，我们假设每个基分类器输出一个类预测，$ \hat{y}^{(b)}(x) \in {-1,1} $。然

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。