xgboost 学习：提升树（boosting tree）（含公式推导）

最新推荐文章于 2024-10-13 17:33:54 发布

空腹熊猫

最新推荐文章于 2024-10-13 17:33:54 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/guangyacyb/article/details/105003571

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

翻译自：Introduction to Boosted Trees

XGBoost 表示“极端梯度提升”，“梯度提升”源自于论文“Greedy Function Approximation: A Gradient Boosting Machine”这是一篇梯度提升书的教程。大部分内容基于 Tianqi Chen（xgboost的作者）的文章these slides

梯度提升树存在有一段时间了, 有很多参考资料. 本篇将使用监督学习的要素，以自完备和原理的方式来解释提升树. 我们觉得这种解释更清晰，更正式，也更有利于推导xgboost用到的公式

监督学习的要素

XGBoost用于监督学习问题, 使用训练集（多特征） $x_i$ 来预测目标变量 $y_i$ 。在我们专门学习树之前，先来复习监督学习的基本概念

模型与参数

有监督学习的模型通常指从输入 $x_i$ 预测输出 $y_i$ 的数学结构。一个普遍的例子是线性模型，预测方式为： $\hat{y}_i = \sum_j \theta_j x_{ij}$ ，是输入特征的线性加权。所预测的值在不同任务中有不同解释（回归和分类）。做一个逻辑斯地变换可以用于正负类别概率预测，也可作为输出的分值用于排序。

参数是未知部分，需要从数据中学习。在线性回归中，参数是系数 $\theta$ 。通常用 $\theta$ 表示参数（模型中有很多参数，这里简略）。

目标函数：训练误差+正则化

对 $y_i$ 的不同选择，表示了不同的任务，例如回归、分类、排序。训练任务的目标是找到能够拟合输入x和标签y的最佳参数 $\theta$ 。为此，需要定义目标函数，以衡量模型拟合的好坏

目前函数的一个明显特征是它由两部分组成：训练误差和正则化项

$L$ 是训练误差， $\Omega$ 是正则化项。训练误差衡量了模型对训练集的估计。 $L$ 的普遍选择是均方误差：

另一个选择是对数损失，用于逻辑回归：

正则化项是人们常忘记加的，它控制着模型复杂度，避免过拟合。听起来有点抽象，考虑以下问题：要拟合一个阶跃函数，输入如下左上角图. 哪个图是最好的拟合?

正确答案用红色标注了。想想这个是否一个合理的拟合。一般原则是，我们想要一个简单且可预测的模型，两者间的权衡也成为机器学习中的偏差-方差权衡（篇末参考）

为何引入一般原则?

以上所提到的形成了监督学习的基本要素。一般是机器学习工具的组成部分。例如，你必须做到能描述梯度提升树和随机森林的区别和共性（前者boosting后者bagging）。用正规方式理解此过程有助于我们理解学习的目标，还有修剪与平滑等启发式方法的原理。

决策树融合（集成）

现在我们介绍监督学习的要素。我们从树开始. 我们先学习XGBoost 的模型选择: 决策树集成. 树集成模型由多个分类回归树（CART树）组成。以下是 CART 的简单例子，判读某人是否会喜欢一个电脑游戏X

我们将一个家庭的成员分到两片叶子中，并为其赋上叶子的值。CART树与决策树有点不同，后者叶子节点只包含了决策值。而CART树的叶子包含了实际分值，可以提供除分类信息外更多的解释。这也便于从原理上统一优化，在后面部分即将看到。

通常一棵树在实际中不够鲁棒，在实际的集成模型中，会对多棵树的预测求和.

这是一个集成两棵树的例子。每棵树预测的分值求和以获得最终分值。仔细观察会发现一个重要事实，两棵树互相补充。模型在数学上的表示为：

$K$ 是树的数量， $f$ 是函数空间 $\mathcal{F}$ 中的一个函数， $\mathcal{F}$ 是所有可能的CART 树模型。目标函数的优化：

这有一个关键问题，随机森林使用的模型是什么？树的集成! 那么随机森林和提升树是相同的模型，两者区别在训练的方式. 这意味着，如果你写为树集成写了一个可预测的服务，只需要写一个即可，它在随机森林和提升树上都能运行（详见Treelite ）

树的提升

现在我们介绍模型，先看训练：如何学习一棵树? 答案正如所有监督学习模型：定义一个目标函数然后优化

目标函数如下（记住要包含训练误差和正则项):

叠加性训练

首先问个问题: 树的参数是什么? 你会发现我们需要学习那些函数 $f_i$ ，每个都包含了树的结构还有叶子的分值。学习树结构比传统的优化问题更难，后者只需要用到梯度。一次性学习所有树会比较难，我们使用加性策略：对我们已学到的模型进行校正，然后一次只添加一棵树。将第 $t$ 步预测到的值记为 $\hat{y}_i^{(t)}$ ，则有：