决策树与集成学习的结合——GBDT和XGBoost

momo_zhong

于 2019-03-08 10:37:14 发布

阅读量970

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhiman_zhong/article/details/88338394

本文介绍了集成学习中的GBDT（Gradient Boosting Decision Tree）和XGBoost，它们都是决策树的加强版。GBDT通过梯度下降和残差学习连续优化，而XGBoost在GBDT的基础上引入正则项、二阶导数优化及列抽样等技术，提高了算法效率和泛化能力。随机森林与GBDT的主要区别在于并行与串行的训练方式以及对异常值的敏感度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这两个算法在面经中提到较多，故而整理一下。

1.集成学习（将多个弱学习器组合成为强学习器）

串行：Boosting,后一个学习器依赖于前一个，故为串行

比较有名的是AdaBoost，每次迭代训练一个学习器，并提高前一轮学习器分类错误样本的权值，降低分类正确的权值

并行：bagging（样本扰动）、随机森林（样本扰动和属性扰动）

Bagging和Boosting的区别：

1）样本选择上：Bagging训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的。Boosting每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2）样例权重：Bagging使用均匀取样，每个样例的权重相等。Boosting根据错误率不断调整样例的权值，错误率越大则权重越大。

3）预测函数：Bagging所有预测函数的权重相等。Boosting每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重。

4）并行计算：Bagging各个预测函数可以并行生成。Boosting各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。

2.决策树

（1）最优属性划分

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。