机器学习算法梳理—XGB

最新推荐文章于 2025-11-03 16:16:23 发布

原创

最新推荐文章于 2025-11-03 16:16:23 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

本文详细介绍了XGBoost算法的原理，包括其模型由一系列CART树组成，损失函数和正则化的应用，以及目标优化的贪心算法和近似算法。XGBoost在传统Boosting基础上通过多线程、正则化等手段提高效率和防止过拟合，并对比了与GBDT和LightGBM的优缺点。

文章目录

一、算法原理

XGBoost是Extreme Gradient Boosting的简称,xgboost是一个监督模型，那么我们的第一个问题就是：xgboost对应的模型是什么？答案就是一堆CART树。
如下是用一堆CART树的示例，用来判断一个人是否会喜欢计算机游戏：
在这里插入图片描述

在这里插入图片描述

第二图的底部说明了如何用一堆CART树做预测，就是简单将各个树的预测分数相加。
xgboost为什么使用CART树而不是用普通的决策树呢？
简单讲，对于分类问题，由于CART树的叶子节点对应的值是一个实际的分数（实数），而非一个确定的类别，这将有利于实现高效的优化算法。xgboost出名的原因一是准，二是快，之所以快，其中就有选用CART树的一份功劳。
知道了xgboost的模型，我们需要用数学来准确地表示这个模型，如下所示：
在这里插入图片描述
这里的K就是树的棵数，F表示所有可能的CART树，fk(xi)表示的就是第i个样本在第k棵树中落在的叶子的权重。这个模型由K棵CART树组成。模型表示出来后，我们自然而然就想问，这个模型的参数是什么？以上图为例，
根据上图，小男孩落在第一棵树的最左叶子，以及第二棵树的最左叶子，所以它的得分就是这两片叶子的权重之和，其余也同理。
那么现在我们需要求的参数就是每棵树的结构和每片叶子的权重，或者简单的来说就是求fk。
如果我们只看一棵回归树，那么它可以绘成分段函数如下：
在这里插入图片描述

**可见分段函数的分割点（横坐标）就是回归树的非叶子节点，分段函数每一段的高度（纵坐标）就是回归树叶子的权重。**那么就可以直观地看到欠拟合和过拟合曲线所对应的回归树的结构。综上所述，我们可以得出该模型的表达式如下
在这里插入图片描述
这个目标函数同样包含两部分，第一部分就是损失函数，第二部分就是正则项，这里的正则化项由K棵树的正则化项相加而来，你可能会好奇，一棵树的正则化项是什么？可