集成算法之Light GBM

最新推荐文章于 2025-03-03 15:14:25 发布

原创

最新推荐文章于 2025-03-03 15:14:25 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #python

Light GBM是一种集成算法，通过直方图优化、GOSS（梯度单边采样）和EFB（互斥特征捆绑）提高效率。直方图算法减少内存消耗和提升运算效率，GOSS保留大梯度样本，EFB降低计算量。Light GBM还采用leaf-wise策略生长树，处理分类变量。

一、Light GBM

Light GBM是和xgboost类似的一种集成算法。xgboost算法的一个瓶颈是针对每个特征，它都需要对每一个可能的分裂点扫描全部的样本来计算基尼系数，这样大大增加了计算量，降低了算法效率。为了解决这种在大样本高纬度数据的环境下耗时的问题，Light GBM算法使用直方图方法在牺牲一定精度的条件下，换取计算速度的提升和内存的消耗；主要使用如下两种方法：一是GOSS（Gradient-based One-Side Sampling, 基于梯度的单边采样），不是使用所用的样本点来计算梯度，而是对样本进行采样来计算梯度；二是EFB（Exclusive Feature Bundling，互斥特征捆绑），这里不是使用所有的特征来进行扫描获得最佳的切分点，而是将某些特征进行捆绑在一起来降低特征的维度，是寻找最佳切分点的消耗减少。这样大大的降低的处理样本的时间复杂度，但在精度上，通过大量的实验证明，在某些数据集上使用Lightgbm并不损失精度，甚至有时还会提升精度。