1、Basic Exact Greedy Algorithm
树学习的关键问题之一是找到最好的分割,如Eq(7)所示。
贪婪算法:分割查找算法枚举所有特征上的所有可能的分割。精确的贪婪算法如Alg. 1所示。为了高效地完成这一任务,算法必须首先根据特征值对数据进行排序,并按排序顺序访问数据,积累Eq(7)中结构得分的梯度统计量。现有的大多数单个树提升实现都支持精确贪婪算法,如scikit-learn[20]、R的gbm[21]以及XGBoost的单机版本。
Eq(7)在文章:xgboost:算法数学原理_KPer_Yang的博客-优快云博客
L s p l i t = 1 2 [ ( ∑ i ∈ I L g i ) 2 ∑ i ∈ I L h i + λ + ( ∑ i ∈ I R g i ) 2 ∑ i ∈ I R h i + λ − ( ∑ i ∈ I g i ) 2 ∑ i ∈ I h i + λ ] − γ \mathcal{L}_{split}=\frac{1}{2}\left[\frac{(\sum_{i\in I_L}g_i)^2}{\sum_{i\in I_L}h_i+\lambda}+\frac{(\sum_{i\in I_R}g_i)^2}{\sum_{i\in I_R}h_i+\lambda}-\frac{(\sum_{i\in I}g_i)^2}{\sum_{i\in I}h_i+\lambda}\right]-\gamma Lsplit=21[∑i∈ILhi+λ(∑i∈I
树学习中的分割策略:从精确贪婪到近似算法

文章探讨了树学习中如何寻找最佳分割点,介绍了BasicExactGreedyAlgorithm(精确贪婪算法)和ApproximateAlgorithm(近似算法)。精确贪婪算法通过排序和累积梯度统计量来找到最优分割,而近似算法则通过特征分布的百分位数生成候选分割点,并使用分桶策略减少计算复杂性,适应大数据和分布式环境。实验表明,局部分桶可以在保持精度的同时减少计算资源的需求。
最低0.47元/天 解锁文章
2742

被折叠的 条评论
为什么被折叠?



