一、极度梯度提升树(XGBoost)的算法原理
极度梯度提升树整体上仍属于GBDT算法,因此算法也一定是由多个基模型组成的一个加性模型,所以模型可以表示为:
-------(1)
根据前向分布算法,假设第t次迭代的基模型为 ,有:
-------(2)
损失函数基本形式由经验损失项和正则化项构成:
-------(3)
其中 上式第一项为经验损失项,表示训练数据预测值与真实值之间的损失;第二项为正则化项,表示全部t棵树的复杂度之和,这也是算法控制模型过拟合的方法。
根据前向分布算法,以第t步为例,假设模型对第i 个样本xi 的预测值为:
--------(4)
其中 是由第一步的模型给出的预测值,其作为一个已知常量存在,
作为第t步树模型的预测值。因而式(3)式的目标函数可以表示为:

本文详细解析了XGBoost算法的数学推导,包括损失函数的构建、正则化项的处理、决策树的构建以及如何通过二阶泰勒展开优化损失函数,突出其过拟合倾向。
最低0.47元/天 解锁文章
1247

被折叠的 条评论
为什么被折叠?



