XGBoost VS GBDT

最新推荐文章于 2023-04-05 21:29:15 发布

原创最新推荐文章于 2023-04-05 21:29:15 发布 · 1.2k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #XGBoost算法 #XGBoost与GBDT差异 #XGBoost改进 #XGBoost工程实践算法

机器学习专栏收录该内容

11 篇文章

订阅专栏

XGBoost是陈天奇等人开发的机器学习项目，高效实现GBDT算法并加以改进。它支持线性分类器，采用二阶泰勒展开优化，并引入正则项防止过拟合。此外，XGBoost支持缩减、列抽样、缺失值处理及并行计算。

文章目录

- - 算法介绍
  - 算法差异

算法介绍

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。
说到XGBoost，不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。两者都是boosting方法。

算法差异

其一：
传统GBDT以CART（gini系数进行裂分的决策树）作为基分类器，XGBoost还支持线性分类器，这个时候XGBoost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。

其二（经过GBDT推导，目前GBDT也是二阶导数）：
传统GBDT在优化时只用到一阶导数信息，XGBoost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，XGBoost工具支持自定义代价函数，只要函数可一阶和二阶求导。

其三：
XGBoost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。正则降低了模型的方差，使学习出来的模型更加简单，防止过拟合，这也是XGBoost优于传统GBDT的一个特性。

其四：
Shrinkage（缩减），相当于学习速率（XGBoost中的eta）。XGBoost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）

其五：
列抽样（column subsampling）。XGBoost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是XGBoost异于传统GBDT的一个特性。

其六：
对缺失值的处理。对于特征的值有缺失的样本，XGBoost可以自动学习出它的分裂方向。

其七：
XGBoost工具支持并行。boosting不是一种串行的结构吗？怎么并行的？注意XGBoost的并行不是tree粒度的并行，XGBoost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。XGBoost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），XGBoost在训练之前，预先对数据进行了排序，然后保存为Block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个Block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。