xgboost：分割查找算法:贪婪算法、分桶算法

树学习中的分割策略：从精确贪婪到近似算法

原创

已于 2023-03-04 17:45:06 修改 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能

于 2023-03-04 11:35:26 首次发布

文章探讨了树学习中如何寻找最佳分割点，介绍了BasicExactGreedyAlgorithm（精确贪婪算法）和ApproximateAlgorithm（近似算法）。精确贪婪算法通过排序和累积梯度统计量来找到最优分割，而近似算法则通过特征分布的百分位数生成候选分割点，并使用分桶策略减少计算复杂性，适应大数据和分布式环境。实验表明，局部分桶可以在保持精度的同时减少计算资源的需求。

1、Basic Exact Greedy Algorithm

树学习的关键问题之一是找到最好的分割，如Eq(7)所示。

贪婪算法:分割查找算法枚举所有特征上的所有可能的分割。精确的贪婪算法如Alg. 1所示。为了高效地完成这一任务，算法必须首先根据特征值对数据进行排序，并按排序顺序访问数据，积累Eq(7)中结构得分的梯度统计量。现有的大多数单个树提升实现都支持精确贪婪算法，如scikit-learn[20]、R的gbm[21]以及XGBoost的单机版本。

Eq(7)在文章：xgboost:算法数学原理_KPer_Yang的博客-优快云博客
$\mathcal{L}_{split}=\frac{1}{2}\left[\frac{(\sum_{i\in I_L}g_i)^2}{\sum_{i\in I_L}h_i+\lambda}+\frac{(\sum_{i\in I_R}g_i)^2}{\sum_{i\in I_R}h_i+\lambda}-\frac{(\sum_{i\in I}g_i)^2}{\sum_{i\in I}h_i+\lambda}\right]-\gamma$