GBDT (Gradient Boosting Decision Tree)

原创已于 2022-05-02 15:57:17 修改 · 290 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#boosting #决策树 #集成学习

于 2022-05-01 11:51:46 首次发布

人工智能同时被 2 个专栏收录

41 篇文章

订阅专栏

机器学习

22 篇文章

订阅专栏

本文介绍了梯度提升树（GBDT）的基本概念，它是决策树的改进，利用平方损失下负梯度作为残差近似。文章详细阐述了GBDT的初始化过程、第一棵树的学习策略，以及如何通过迭代生成更多树来提升预测精度。最后，通过几个链接提供深入学习资源。

背景

GBDT是BT的一种改进算法。然后，Friedman提出了梯度提升树算法，关键是利用损失函数的负梯度作为提升树残差的近似值。 当使用平方损失时，负梯度就是残差。

算法模型

树模GBDT初始化 $c$ 为所有标签的均值，即 $f_0(x)$ 。
学习完第一棵树：
$\Upsilon_{j 1}=\underbrace{\arg \min }_{\Upsilon} \sum_{x_{i} \in R_{j 1}} L\left(y_{i}, f_{0}\left(x_{i}\right)+\Upsilon\right)$
$Υj1\Upsilon_{j 1}$ 中的 $1$ 表示第一颗树。GBDT已知 $Υ\Upsilon$ ，然后最小化这个值求树的划分。使损失最小的树的划分。
学习完所有树：
$f(x)=f_{M}(x)=f_{0}(x)+lr*\sum_{m=1}^{M} \sum_{j=1}^{J} \Upsilon_{j m} I\left(x \in R_{j m}\right)$
使用 $l r$ 可以防止过拟合。 $Υjm\Upsilon_{j m}$ 是叶子节点的值， $I$ 表示预测值是否属于这个节点，属于为1，不属于为0。 $f_0(x)$ 是一个基(标签的均值)，后续学的都是残差。1和0的计算需要将样本带入树中计算得到。叶子节点的数值表示残差值。树的数量是通过不断迭代产生的。

参考资料

https://blog.youkuaiyun.com/zpalyq110/article/details/79527653(GBDT案例介绍)
https://www.cnblogs.com/always-fight/p/9400346.html
https://www.cnblogs.com/ModifyRong/p/7744987.html