机器学习18-XGBoost的推导过程

最新推荐文章于 2024-05-13 14:12:35 发布

原创最新推荐文章于 2024-05-13 14:12:35 发布 · 1.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#XGBoost推倒 #决策树

机器学习理论同时被 2 个专栏收录

19 篇文章

订阅专栏

机器学习公式推导

7 篇文章

订阅专栏

本文探讨了提升随机森林准确率的方法，包括调整决策树生成策略和优化随机森林的投票过程。通过对分错样本进行加权处理及改进目标函数，提出了增强随机森林性能的有效途径。

一，对随机森林的重新思考

随机森林的每个决策树由随机样本数，随机样本特征，通过信息熵的度量来确定，可以说各个决策树之间是相互独立的，每个树只是在某个分类方向上具有优势（弱分类器），将具有优势的这些树组成森林，即可生成随机森林，从而达到分类的目的。但是如果我想对随机森林进一步提升准确率，应该采取什么策略呢？有以下2个方向：

1，决策树。

假定当前得到m-1颗决策树，可以根据样本与决策信息影响第m颗决策树的生成。很显然的将分错的样本权值增大，将分对的样本权值减小能在训练样本上能得到较高的准率

图m=1中，绿线左边3个红点，右边2个蓝点分错，将这5个点加权再分，以此类推分下去，可以得到很好的分类器。

2，各个决策树组成随机森林后，最后的投票过程不采用少数服从多数规则，投票过程在建立决策树时就确立。

二，算法框架

假定样本的噪声符合高斯分布，典型的损失函数就定义为预测值与实际值的误差平方，则目标函数的最优解就是所有样本损失最小的函数

此时F（x）是一簇基函数f（x）的加权和

则算法转化为求一簇基函数的最小损失值，根据策略1，我们应该根据前m-1个决策树来决定生成怎样的第m颗决策树，不妨第一颗决策树就是一个常数函数f1（x）= c

接下来的工作便是怎么确定权值，怎么根据m-1颗树确定第m颗树

三，目标函数

：第i个样本根据前t-1颗树确定的测试值

：第i个样本根据第 t 颗树确定的值

：第 t 颗树的正则项

根据Taylor展开式，在x处2阶展开，忽略高阶无穷小。

令

将目标函数Taylor展开

值得注意的是，L是给定的，y的真实值是知道的，预测值是根据前t-1颗树知道的，则gi和hi是可算的。

四，重新定义决策树

一个xi的样本进入决策树分类是由最终的的叶子权值决定，即黑色实心圆，而中间的空心圆只是决定的 xi 样本落入到哪一个叶子。

q（x）表示样本x落入的叶子

Wq（x）表示样本x落入叶子的权值，即样本X经过决策树所对应的权值

所以一颗决策树的核心是：“树结构”与“叶权值”

举例

五，正则项的定义

决策树的复杂度可参考叶节点数和叶权值

举例

六，目标函数的计算

定义

得

对W求偏导

代入目标函数

举例

XGBoost公式做的事情

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。