本文是对陈天奇关于Boosted Tree介绍slides的读后梳理。第一次读论文XGBoost: A Scalable Tree Boosting System的时候很懵逼,于是找到了这份slides,这里天奇大佬的介绍很细致,本篇将主要叙述slides中与BT原理直接相关的内容。
0.BT的学习思路
1.我们想要学习什么:模型,目标。
2.如何学习:优化方法。
3.trade-off。
4.总结。
1.BT的模型和目标
模型

预测值 = 样本输入所有树的输出值之和。
目标函数
![]()
目标函数 = 所有样本的loss函数(真实值,模型预测值)之和 + 所有树的复杂度之和。
前项代表模型在样本集上的训练误差(variance),后项代表模型的复杂度(bias)。loss函数可以根据需求取不同函数,如平方差损失、罗辑斯谛损失。
2.优化方法
这里要学习的目标与其他算法不同,从参数空间变成了函数空间。参数空间:学习模型中的权重;函数空间:学习函数f,包括函数的结构和其中的权重。因此过去的SGD对f的学习不管用了,于是提出了加性学习(Additive Training (Boosting))。
加性学习


本文深入解析Boosted Trees(BT)的学习思路,包括BT模型、目标函数、优化方法,如加性学习、损失函数和树的定义。通过泰勒展开式简化目标函数,探讨树的复杂度和学习过程中的trade-off,如提前停止和剪枝策略。BT的核心在于每轮学习一棵树,通过一阶导和二阶导选择最优目标函数对应的树。
最低0.47元/天 解锁文章
3206

被折叠的 条评论
为什么被折叠?



