集成学习（中）XGBoost算法

最新推荐文章于 2025-01-03 18:14:23 发布

原创

最新推荐文章于 2025-01-03 18:14:23 发布 · 374 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习

XGBoost算法

XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted
XGBoost是一个优化的分布式梯度增强库，提供了并行树提升（也称为GBDT，GBM），可使用分布式环境（Hadoop，SGE，MPI）运行；以CART决策树为子模型，通过Gradient Tree Boosting实现多棵CART树的集成学习，得到最终模型

XGBoost算法

(1) 构造目标函数：

$L(ϕ)=∑il(y^i,yi)+∑kΩ(fk) \mathcal{L}(\phi)=\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{k} \Omega\left(f_{k}\right)$
其中， $∑il(y^i,yi)\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)$ 为loss function， $∑kΩ(fk)\sum_{k} \Omega\left(f_{k}\right)$ 为正则化项。

(2) 叠加式的训练(Additive Training)：

因此，目标函数可以分解为：
$L(K)=∑i=1nl(yi,y^i(K−1)+fK(xi))+∑kΩ(fk) \mathcal{L}^{(K)}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right)\right)+\sum_{k} \Omega\left(f_{k}\right)$
也为：
在这里插入图片描述
(3) 使用泰勒级数近似目标函数：

在这里插入图片描述

(4) 如何定义一棵树：

第一个概念是样本所在的节点位置 $q (x)$ ，

第二个概念是有哪些样本落在节点j上 $i∣q(xi)=j}I_{j}=\left\{i \mid q\left(\mathbf{x}_{i}\right)=j\right\}$ ，

第三个概念是每个结点的预测值 $w_{q(x)}$ ，

第四个概念是模型复杂度 $Ω(fK)\Omega\left(f_{K}\right)$ ，它可以由叶子节点的个数以及节点函数值来构建，则： $Ω(fK)=γT+12λ∑j=1Twj2\Omega\left(f_{K}\right) = \gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$ 。如下图的例子：
在这里插入图片描述

$q(x_1) = 1,q(x_2) = 3,q(x_3) = 1,q(x_4) = 2,q(x_5) = 3$ ， $I_1 = \{1,3\},I_2 = \{4\},I_3 = \{2,5\}$ ， $w = (15, 12, 20)$
因此，目标函数用以上符号替代后：
$\begin{aligned} \tilde{\mathcal{L}}^{(K)} &=\sum_{i=1}^{n}\left[g_{i} f_{K}\left(\mathrm{x}_{i}\right)+\frac{1}{2} h_{i} f_{K}^{2}\left(\mathrm{x}_{i}\right)\right]+\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2} \\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$