决策树系列6：XGBoost, 机器学习的大杀器

最新推荐文章于 2024-12-08 23:51:20 发布

haoyutiangang

最新推荐文章于 2024-12-08 23:51:20 发布

阅读量488

点赞数 1

分类专栏：决策树机器学习文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/haoyutiangang/article/details/104885476

版权

XGBoost是一种高效的GBDT实现，以其速度和性能优势在机器学习领域广泛应用。本文深入探讨XGBoost的基本思路和原理，包括目标函数、损失函数的泰勒展开、树的构建策略等，旨在揭示其逐步优化预测值与真实值差异的机制。此外，还介绍了XGBoost的一些优化点，如快速停止和步长收缩。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

XGBoost 自诞生以来，就屡次在国际机器学习大赛中摘取桂冠，风头隐隐有超过深度学习之势，堪称机器学习的"大杀器"。今天我们就来揭开 XGBoost 的神秘面纱，瞧瞧它的庐山真面目。

一、XGBoost 简介

XGBoost 跟上一篇的 AdaBoost 都属于集成学习的范畴，即利用多个弱学习器组成最终的强学习器。

说到 XGBoost 不得不提 GBDT(Gradient Boosting Decision Tree), XGBoost 是 GBDT 思想的一种实现，把速度和性能提升到了极致，所以XGBoost 的 “X” 是 “Extreme” 的意思。

二、XGBoost 的基本思路

回想决策树中，我们用不同的属性划分分支，最终每个样本都会到达叶子节点，所以叶子节点代表了样本的分类结果。

我们知道决策树不仅可以解决分类问题(叶子节点代表一个类别), 也可以解决回归问题(叶子节点代表样本的分值)，但总体思路是一样的。

举个例子，比如我们要预测某个人是否喜欢玩游戏，可以建立如下这样一棵决策树。
在这里插入图片描述

这是一个回归问题，每个样本的分值等于其所在叶子节点的分值，分值正负表示是否喜欢玩游戏，分值大小表示喜欢玩游戏的程度。

上图中我们用 “年龄” 属性建立了决策树，得出了 “age < 20” 的人喜欢玩游戏程度为 “+2”, “age >= 20” 的人喜欢玩游戏的程度为 “-1”。

但是只用一个属性建立的决策树太片面了，所以我们又用 “是否每天用电脑” 建立了第二棵决策树。

在这里插入图片描述
最后，我们把样本在两棵决策树中分值加起来表示样本的最后分值，例如图中小朋友的分值为 2 + 0.9 = 2.9，老爷爷的分值为 -1 + (-0.9) = -1.9

总结一下，如果我们建立 K 棵树，每个样本 $x_i$ 的预测分值 $\hat{y}_i$ 为该样本在每棵决策树叶子节点的分值之和。

$\hat{y}_i = \sum_{t=1}^{K} f_t(x_i)$
其中 $f_t(x_i)$ 表示样本 $x_i$ 第 t 棵树中所在叶子的分值。

好了，现在思考一下：每次添加一棵新树时，如何评判新添加的树对总体而言是好的还是不好的？

评判标准就是：样本 $x_i$ 的预测值 $\hat{y}_i$ 与样本真实值 $y_i$ 之间的差异是否越来越小了。

举个例子：在贷款额度评估模型中，样本小王的真实贷款额度为30万, 我们看看什么是好的建树过程。

第一棵树：小王所在叶子分值为 20万, 此时差异 $|\hat{y}^{(1)} - y| = |f_1(x) - y| = 10万$
第二棵树：小王所在叶子分值为 15万, 此时差异 $|\hat{y}^{(2)} - y| = |f_1(x) + f_2(x) - y| = 5万$
第三棵树：小王所在叶子分值为 -3万, 此时差异 $|\hat{y}^{(3)} - y| = |f_1(x) + f_2(x) + f_3(x) - y| = 2万$

可以看出，每添加一棵树，样本分值的和 $\hat y^{(t)} = \sum_{t=1}^K f_t(x)$ 与真实值 $y$ 之间的差异都在变小。换言之，每棵新树分值 $f_t(x)$ 的目标不是 $y$ 本身, 而是为了弥补之前剩下的差异 $|\hat y^{(t-1)} - y|$ 。

可以看到，预测值 $\hat y$ 等于所有决策树的分值总和，每棵新树 t 都在上一次分值之和 $\hat y^{(t-1)}$ 的基础上加上自己的分值 $f_t$ ，构成新的预测值。

书归正传，XGBoost 就是用的这种思路，每棵新树都在逐步弥补预测值与真实值之间的差异。

现在目标清楚了，问题在于 XGBoost 是如何添加新树使得新树可以逐步弥补样本差异的呢？

三、XGBoost 的原理探究

3.1 提出目标函数

现在再总结一下刚才的过程：

在这里插入图片描述

最初没有树，预测值 $\hat y^{(0)}$ 为 0
每添加一棵树 $f_t$ , 预测值 $\hat y_i^{(t)}$ 为之前的预测值 $\hat y_i^{(t-1)}$ 与新树分值 $f_t(x_i)$ 之和

这是一个递归加和的过程, 希望大家能够理解。

有了预测值 $\hat y$ ，想求 $f_t$ ，需要给出我们的目标函数。

一方面，我们想让预测值 $\hat y$ 和真实值 $y$ 之间的差异 loss 最小，这里不同算法评估差异的方式不同。比如：

线性回归： $loss(y_i,\hat y_i) = (y_i - \hat y_i)^2$
逻辑回归： $loss(y_i,\hat y_i) = y_i\,ln(1+e^{- \hat y_i}) + (1 - y_i)\,ln(1+e^{\hat y_i})$

其他算法的 loss 计算方式可能又有不同，真正用哪种方式应该根据解决的具体问题而定，这里统称为 $l(y_i,\hat y_i)$ 。

另一方面，为了防止过拟合和决策树过于复杂，我们需要为每棵树添加惩罚项 $\Omega$ ，常用的惩罚项有以下几种：

L1 正则化： $\Omega = \lambda\,||w||_1 = \lambda\,\sum_{i=1}^n |w_i|$

最低0.47元/天解锁文章

博客等级

码龄9年

79
原创

165
点赞

659
收藏

189
粉丝

关注

私信

热门文章

分类专栏

决策树 7篇
Hadoop实战 4篇
ZooKeeper
Flume 1篇
Kafka 2篇
Storm 2篇
项目基础 2篇
Hive 3篇
Java 2篇
Spark 1篇
算法 14篇
LeetCode 14篇
机器学习 48篇
深度学习 41篇
吴恩达 34篇

展开全部收起

上一篇：: 决策树系列5：AdaBoost 竟如此简单

下一篇：: 决策树系列-目录

最新评论

深度学习系列6：卷积神经网络的反向传播
提莫队长刘谢文: 兄弟，请问解决了吗？是直接相加吗？
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 人脸识别和神经风格转换--编程作业
自向阳_: def compute_layer_style_cost(a_S, a_G): """ Arguments: a_S -- tensor of dimension (1, n_H, n_W, n_C), hidden layer activations representing style of the image S a_G -- tensor of dimension (1, n_H, n_W, n_C), hidden layer activations representing style of the image G Returns: J_style_layer -- tensor representing a scalar value, style cost defined above by equation (2) """ ### START CODE HERE ### # Retrieve dimensions from a_G (≈1 line) m, n_H, n_W, n_C = a_G.get_shape().as_list() # Reshape the images to have them of shape (n_C, n_H*n_W) (≈2 lines) a_S = tf.transpose(tf.reshape(a_S, [n_H * n_W, n_C])) a_G = tf.transpose(tf.reshape(a_G, [n_H * n_W, n_C])) # Computing gram_matrices for both images S and G (≈2 lines) GS = gram_matrix(a_S) GG = gram_matrix(a_G) # Computing the loss (≈1 line) J_style_layer = (1 / (2 * n_C * n_W * n_H) ** 2) * (tf.reduce_sum(tf.square(tf.subtract(GS, GG)))) ### END CODE HERE ###
深度学习系列6：卷积神经网络的反向传播
AgileFastx: 请问对于多filter的情况如何求dA
决策树系列3：信息增益、增益率、基尼系数 (史上最详尽)
Artemisia_Cain: 这里信息增益的举例算错了吧，应该是Ent(X|场地=室外)后面不应该是logbase2吗？log()这怎么直接用的lg来算啊，lg(1/2)才是0.3010。
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 人脸识别和神经风格转换--编程作业
qq_43724777: The Session graph is empty. Add operations to the graph before calling run().

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。