LightGBM原理和调参

沉住气CD

已于 2024-01-10 21:23:38 修改

阅读量1.8k

点赞数 20

CC 4.0 BY-SA版权

分类专栏：机器学习常用算法文章标签： python 机器学习算法人工智能数据挖掘

于 2024-01-10 18:24:33 首次发布

本文链接：https://blog.youkuaiyun.com/PyDarren/article/details/135510207

背景知识

LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架，具有支持高效率的并行训练、更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以处理海量数据等优点。

普通的GBDT算法不支持用mini-batch的方式训练，在每一次迭代的时候，都需要多次遍历整个训练数据。这样如果把整个训练数据装进内存则会限制训练集的大小，如果不装进内存，反复的读写数据又会大量消耗时间，特别不适合工业级海量数据的应用。LGBM的提出就是为了解决这些问题。

在LGBM提出之前，应用最广泛的GBDT工具就是XGBoost了，它是基于预排序的决策树算法。这种构建决策树的算法基本思想是：

这样预排序算法的优点是能精确地找到分割点，但是缺点也很明显：

空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的结果（例如，为了后续快速的计算分割点，保存了排序后的索引），这就需要消耗训练数据两倍的内存。
时间开销大。在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。
对cache优化不友好。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时，在每一层生成树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的cache miss。

为了弥补XGBoost的缺陷，并且能够在不损害准确率的条件下加快GBDT模型的训练速度，LGBM在传统的GBDT算法上进行了如下优化：

基于Histogram的决策树算法。
单边梯度采样(Gradient-based One-side Sampling, GOSS)：使用GOSS可以减少大量只具有小梯度的数据实例，这样在计算信息增益的时候只利用剩下的具有高梯度的数据就可以了，相比XGBoost遍历所有特征节省了不少时间和空间上的开销。
互斥特征捆绑(Exclusive Feature Bundling, EFB)：使用EFB可以将许多互斥的特征绑定为一个特征，这样达到了降维的目的。
带深度限制的Leaf-wise的叶子生长策略：大多数GBDT工具使用低效的按层生长(level-wise)的决策树生长策略，因为它不加区分的对待同一层叶子，带来了很多没必要的开销，实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。LGBM使用了带有深度限制的按叶子生长(leaf-wise)算法。
直接支持类别特征(Categorical Feature)。
支持高效并行。
Cache命中率优化。