梯度提升算法(Gradient Boosting Machine,GBM)是一种集成学习方法,通过逐步构建一系列简单模型(通常是决策树),并结合这些模型来提高整体预测性能。GBM广泛用于回归和分类任务,因为它具有较高的准确性和灵活性。
GBM的基本原理
GBM的思想源于提升方法(Boosting)。提升方法是一种将多个弱学习器(性能稍好于随机猜测的模型)组合成一个强学习器的技术。GBM通过以下步骤实现这一过程:
-
初始化模型:选择一个初始模型 ,通常是目标值的均值:
其中,是损失函数,是真实值。
-
迭代更新模型:对于每一轮 ,执行以下步骤:
-
计算残差:计算当前模型的预测误差(残差),即:
这里,残差表示真实值和当前模型预测值之间的差异。
-
拟合弱学习器:训练一个新的弱学习器 来拟合这些残差:
-
更新模型:更新模型的预测值,将新弱学习器加入现有模型中,并乘以一个学习率 来控制每个弱学习器的贡献:
其中,是学习率,通常介于 0 到 1 之间。
-
-
重复迭代:继续迭代步骤2,直到达到预定的迭代次数 或其他停止条件。