梯度提升决策树与LightGBM:原理、应用与优化
1. 算法性能评估
在解决问题时,我们为模型设置了合适的超参数,进一步还可优化算法超参数以找到最佳参数值。运行相关代码后,各算法在Forest CoverType数据集上的F1分数如下:
| 模型 | F1分数 |
| — | — |
| 决策树 | 0.8917 |
| 随机森林 | 0.9209 |
| ExtraTrees | 0.9231 |
ExtraTrees模型略优于随机森林模型,且两者都比决策树分类器表现更好。此前介绍了基于装袋法(bagging)的决策树集成学习方法,下面将探讨另一种集成学习方法:梯度提升。
2. 梯度提升决策树原理
梯度提升是一种集成学习方法,它按顺序组合多个模型以生成更强大的集成模型。与装袋法不同,装袋法并行使用多个强模型,而梯度提升训练多个弱学习器,每个学习器从前一个学习器的错误中学习,以构建更准确、更强大的集成模型。此外,每个模型使用整个数据集进行训练。
梯度提升总是构建一系列回归树来组成集成部分,无论解决的是回归问题还是分类问题,它也被称为多元加法回归树(MART)。其过程从一个弱基学习器开始,以决策树为例,基学习器可能只有一个分割(即决策树桩)。然后计算误差残差(预测目标与实际目标之间的差异),接着在先前学习器的误差残差上训练新的学习器,以最小化误差。最终预测是所有学习器预测的总和。
3. 梯度下降优化算法
梯度下降是一种优化算法,旨在找到使损失函数最小化的最优参数。通过在损失函数负梯度方向上逐步迭代更新参数,从而减小函数值。损失函数与误差函数概念相似,但有两个重
超级会员免费看
订阅专栏 解锁全文
448

被折叠的 条评论
为什么被折叠?



