xgboost原理介绍与代码实现

最新推荐文章于 2023-11-08 18:59:32 发布

林ch

最新推荐文章于 2023-11-08 18:59:32 发布

阅读量960

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/linchuhai/article/details/103464541

1.引言

自从2015年以来，各大算法比赛网站上频繁出现了一个神器——xgboost，xgboost是陈天奇提出来的一种梯度提升树的方法，据作者统计，在2015年kaggle上的29个比赛中，有17个冠军就是用了xgboost模型。因此，本文将重点介绍一下这个神器的原理。

论文地址：XGBoost: A Scalable Tree Boosting System

2. xgboost原理

2.1 正则化目标函数

给定一个数据集，假设样本量为 $n$ ，特征数为 $m$ ， $\mathcal{D}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}\left(|\mathcal{D}|=n, \mathbf{x}_{i} \in \mathbb{R}^{m}, y_{i} \in \mathbb{R}\right)$ ，对于每一个样本，xgboost使用 $K$ 棵树的预测值加和作为模型最后的预测值：
$\hat{y}_{i}=\phi\left(\mathbf{x}_{i}\right)=\sum_{k=1}^{K} f_{k}\left(\mathbf{x}_{i}\right), \quad f_{k} \in \mathcal{F}$
其中， $\mathcal{F}=\left\{f(\mathbf{x})=w_{q(\mathbf{x})}\right\}\left(q: \mathbb{R}^{m} \rightarrow T, w \in \mathbb{R}^{T}\right)$ ， $q$ 表示树的结构或者决策规则，即将一个样本映射到对应的叶节点序号，说白了就是判断一个样本属于哪个叶节点。 $T$ 表示叶节点的数量， $w$ 表示一个 $T$ 维向量，即整棵决策树所有叶节点对应的值，对于第 $i$ 个叶节点的预测值，可以表示为 $w_i$ 。

xgboost使用正则化的目标函数如下：
$\mathcal{L}(\phi)=\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{k} \Omega\left(f_{k}\right)$
其中， $\Omega(f)=\gamma T+\frac{1}{2} \lambda\|w\|^{2}$ ，这里 $l$ 表示一个可微凸损失函数，用于计算预测值与真实值直接的差异， $\Omega$ 表示模型复杂度的惩罚，这里对每棵树的惩罚项主要包含两部分，一部分是树的结点树，另一部分是树每个叶节点预测值的L2值，这里主要是希望每棵树可以相对均匀地预测目标值，防止出现过拟合的情况。当惩罚项的参数为0时，则目标函数就变为传统梯度提升树的目标函数。
在这里插入图片描述

2.2 梯度提升树

如果直接对上面的目标函数进行最小化求解，很难对参数进行估计。由于xgboost是对每棵树的预测结果进行加总，因此，对于第 $t$ 次迭代时第 $i$ 个样本的预测值，可以记为 $\hat{y}_{i}^{(t)}$ ，此时，对于第 $i$ 棵树的参数求解，只需要最小化如下的目标函数：
$\mathcal{L}^{(t)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(\mathbf{x}_{i}\right)\right)+\Omega\left(f_{t}\right)$