GBDT、Xgboost、LightGBM对比，异同点，并行策略

最新推荐文章于 2025-05-18 17:06:01 发布

原创

最新推荐文章于 2025-05-18 17:06:01 发布 · 6.5k 阅读

CC 4.0 BY-SA版权

文章标签：

阐述GBDT、xgboost、lightGBM的异同，xgb的优势，lgb的优势，二者的并行如何实现。

传统 GBDT 以 CART 作为基分类器，XGboost 还支持线性分类器，这时 XGboost 相当于带 L1 和 L2 正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
传统 GBDT 在优化时只用到一阶导数信息，xgboost 则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。xgboost 还支持支持自定义代价函数，只要函数可一阶和二阶求导。
XGboost 在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的 score 的 L2 模的平方和。降低了模型的variance，使学习来的模型更加简单，防止过拟合。
Shrinkage（缩减），相当于学习速率（xgboost 中的 eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。（补充：传统 GBDT 的实现也有学习速率）
列抽样（column subsampling）。xgboost 借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是 xgboost 异于传统 gbdt 的一个特性。
xgboost 支持并行。注意 xgboost 的并行不是 tree 粒度的并行，xgboost 也是一次迭代完才能进行下一次迭代的。xgboost 的并行是在特征粒度上的。训练之前，预先对数据进行了排序，然