执行步骤
1、初始化,选择一个初始模型,通常是一个常数,比如分类问题中内的类别概率的先验值,回归问题中的目标变量的平均值。
2、训练决策树,对于每一轮迭代,计算当前模型的梯度(损失函数的负梯度),这些梯度表示了模型改进的方向。
3、选择最佳分裂:使用leaf-wise分裂策略,选择具有最大梯度下降的叶子节点进行分裂。这一步骤中,lightGBM会采用GOSS技术来减少样本数量,从而加速训练过程。
4、更新决策树:根据最佳分裂点更新决策树,并为新的叶子节点分配权重。
5、模型融合:将新训练的决策树以加权的方式融合到当前的模型中,权重通常由学习率决定。
6、重复迭代:重复步骤2-5,直到达到预设次数或满足停止条件。
优势:
1、高效性:Leaf-wise分裂策略和GOSS技术使得LightGBM在训练过程中更加高效,能够更快地收敛。
2、减少内存使用:EFB技术通过特征捆绑减少了特征的数量,从而降低了模型的内存空间。
3、高准确率:lightGBM能够捕获非线性关系,并且通过迭代优化逐步提高模型的准确率。
4、易于调参:lightGBM提供了丰富的参数设置,用户可以根据具体问题调整模型的行为。
5、并行计算:算法支持并行学习,可以通过多线程充分利用现代计算机的多核处理器,进一步提高训练速度。
6、缺失值处理:能够自动处理缺失值,不需要用户额外的数据预处理。
7、剪枝策略:具有先进的剪枝策略,可以防止过拟合,提高模型的泛化能力。
基于