仅供参考:
背景:XGBoost一个瓶颈是针对每个特征,它需要对每一个可能的分裂点扫描全部的样本来进行计算基尼系数,这是非常的耗时的。
Lightgbm的主要特点:
1. Lightfbm使用直方图算法在牺牲一定精度的条件下换取计算速度的提升和内存消耗的降低。使用了如下的两种方法:
- Gradient-based One-Side Sampling(GOSS):首先根据样本梯度进行排序,选择Top a%的大梯度的样本,再随机选择b%的其他样本,组合起来去评估信息增益,减少了样本的量(间接降低小梯度样本的出现几率);
- Exclusive Feature Bundling(EFB):基于图算法,合并了部分特征,减少总特征量;
2. Lightgbm采用<