超详细解释XGBoost，一篇文章搞懂XGBoost

最新推荐文章于 2025-02-18 13:51:17 发布

zzoo2200

最新推荐文章于 2025-02-18 13:51:17 发布

阅读量1.4w

点赞数 27

文章标签：机器学习算法 bootstrap

本文链接：https://blog.youkuaiyun.com/zzoo2200/article/details/126786630

版权

XGBoost是一种高效、可扩展的梯度提升树算法，由Tianqi Chen开发，广泛应用于数据科学竞赛。它在Kaggle竞赛中表现出色，被誉为必备技能。XGBoost通过优化目标函数，特别是引入偏差变量，提高了决策树的效率。算法通过贪心算法和加权分位法构建决策树，处理缺失值并控制模型复杂度，确保高效训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

XGBoost

背景

XGBoost 最初是由 Tianqi Chen 作为分布式（深度）机器学习社区（DMLC）组的一部分的一个研究项目开始的。XGBoost后来成为了Kaggle竞赛传奇——在2015年的時候29个Kaggle冠军队伍中有17队在他们的解决方案中使用了XGboost。人们越来越意识到XGBoost的强大威力。夸张一点说，如果你不会XGboost，那你参加Kaggle竞赛就是去送人头的。

XGboost到底是什么呢？Tianqi Chen在XGboost的论文中写道：”Tree boosting is a highly effective and widely used machine learning method. In this paper, we describe a scalable end-to-end tree boosting system called XGBoost, which is used widely by data scientists to achieve state-of-the-art results on many machine learning challenges.“[1] 总结一下，XGBoost是一个可拓展的Tree boosting算法，被广泛用于数据科学领域。

XGBoost可以说是GBDT（Gradient Boosting Decision Tree）梯度提升树的一个改进版本。XGBoost中的X代表的就是eXtreme（极致），XGBoost能够更快的、更高效率的训练模型。这就是为什么XGBoost可以说似乎GBDT的一个改进版本。正是得益于XGBoost的高效率，使得她成为数据竞赛中的一大杀器。

工程原理

想要了解一个算法，首先得从宏观上知道这个算法是怎么工作的：1、算法的具体形式；2、怎么做出预测

具体形式

XGboost的可视化（如下图，一个由两棵决策树组成的XGBoost）

重点：

1、XGboost的基本组成元素是：决策树；我们将这些决策树成为”弱学习器“，这些”弱学习器“共同组成了XGboost

2、组成XGBoost的决策树之间是有先后顺序的；后一棵决策树的生成会考虑前一棵决策树的预测结果，即将前一棵决策树的偏差考虑在内（在目标函数中有体现）

3、生成每棵决策树使用的数据集，是整个数据集。所以可以将每棵决策树的生成都看作是一个完整的决策树生成过程

怎么做出预测

一个新样本的预测：新样本依次进入XGBoost的每棵决策树。在第一棵决策树，有一个预测值；在第二棵决策树，有一个预测值，依次类推···直到进入完所有”弱学习器“（决策树）。最后，将“在每一颗决策树中的值”相加，即为最后预测结果。

举例：还是刚刚那张图，样本“儿子”在tree1中的预测值为+2，在tree2中为+0.9。将两个值相加，2+0.9=2.9，所以XGboost最后预测样本“儿子”的值为2.9

目标函数

引言

到这里，我们已经知道了一个XGBoost模型到底是什么工作的了。那XGboost模型到底是怎么生成的呢？XGboost中的“弱学习器”是怎么生成的？

了解机器学习的都知道，要评价我们产生的模型是否是最好的，其依据是“目标函数”。目标函数越小，这个模型才越是我们想要的。刚刚提到，XGboost中的“弱学习器”是“决策树”。在经典的“决策树”算法中，ID3的目标函数基于“信息熵”，CART的目标函数基于“GINI系数”。而在XGboost中，“决策树“的目标函数引入了”偏差“这个变量，这也是XGBoost的魅力所在。

总结一下：XGboost的”弱学习器“是”决策树“，每棵”决策树”都是目标函数值最小时的模型。只有这棵“决策树”的目标函数值最小，才会被选为“弱学习器”。