机器学习--xgboost算法过程推导

最新推荐文章于 2025-03-18 16:47:42 发布

星辰如月

最新推荐文章于 2025-03-18 16:47:42 发布

阅读量495

点赞数

本文链接：https://blog.youkuaiyun.com/qq_44930315/article/details/103075962

版权

本文详细介绍了XGBoost算法的核心思想，通过实例解析了目标函数的构建和化简过程，强调了正则化的意义，并探讨了如何通过泰勒展开和叶子节点的遍历来优化目标函数，以实现更精确的预测。此外，文章还提到了分支选择策略，即根据分支增益公式选取最佳切割点，以减小目标函数值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一 .概述

xgboost是boosting算法的其中一种，该算法思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。具体的目标函数如下：
在这里插入图片描述
主要就是找到ft来优化这一目标函数，通过一个简单的例子来形象的理解该目标函数。例如是小明真实有100个糖果，现在建立一个决策系统来预测小明有多少个糖。首先建立一棵树，记为树1，它的预测结果是90个，这时得到一个残差，这个残差值就是100-90=10，此时和真实值差别是10。为了提高精度，可以在该决策系统中再添加一棵树，记为树2。树2就是为了弥补上一棵树存在的残差，假设它的预测结果是5，此时总体的残差值是10-5=5，即和真实值相差为5。符号化表示：之前的结果10表示为输出结果为yˆ1 ,即上一时刻的残差值，树2的值为f2 ,此时得到的值。接着可以再建立第三课树，记为树3。假设它的预测值为3，此时总体的残差值是5-3=2，即和真实值相差为2。符号化表示：上一时刻输出结果5为yˆ2 ,即上一时刻的残差值，树3为f3 ,此时得到值。xgboost的目标就是通过找到ft 来优化这一目标函数，使得最终结果足够小。下面对该函数进行推导化简。