作者:禅与计算机程序设计艺术
1.简介
GBDT(Gradient Boosting Decision Tree)
Gradient Boosting Decision Tree(简称GBDT)是一种机器学习算法,它是集成学习中的一类boosting方法,其主要特点是通过迭代多棵弱分类器并调整他们的权重来建立强分类器。GBDT的基本思想是将若干个回归树(regression tree或classification tree),每一颗回归树都对应着之前的结果的残差,然后在每一步计算新的残差,并将这些残差拟合一个回归树,再把这个回归树加入到最终的回归树之中,如此反复迭代。最终的分类器由多颗回归树构成。
为什么要用GBDT
当特征之间存在强相关关系时,传统决策树容易过拟合,而GBDT可以缓解这一问题,并且由于每一颗回归树只关注前面的误差,因此相比于其他Boosting方法,它可以在某些情况下更好地处理数据噪声、分类不平衡等问题。
如何实现GBDT
GBDT模型的实现包括以下几个方面:
- 数据预处理阶段:GBDT模型通常采用均值平滑(mean smoothing)的方法来防止过拟合,即用所有样本