Spark 3.0 - 12.ML GBDT 梯度提升树理论与实战

BIT_666

于 2022-12-16 08:00:00 发布

阅读量816

点赞数 20

分类专栏： Spark 3.0 x 机器学习 Scala 文章标签： spark 分类 GBDT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/BIT_666/article/details/128334331

版权

Spark 3.0 x 机器学习同时被 2 个专栏收录

18 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

150 篇文章

订阅专栏

本文详细介绍了Spark 3.0中的GBDT（Gradient Boosting Decision Tree）算法，从理论到实战，涵盖了集成学习、分类与回归问题、梯度提升和GBDT的生成过程。GBDT是一种利用决策树集成的分类和回归方法，通过串行生成基学习器来降低模型的损失函数，逐步拟合残差。实战部分涉及数据准备、构建GBDT Pipeline以及预测与评估，展示了如何在Spark中应用GBDT进行高效预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

二.GBDT 理论

2.分类 & 回归问题

三.GBDT 实战

2.构建 GBDT Pipeline

3.预测与评估

一.引言

关于决策树前面已经介绍了常规决策树与随机森林两种类型的知识，本文主要介绍梯度提升树 Gradient Boosting Decision Tree 即常说的 GBDT，其实一种使用决策树集成的流行分类和回归方法。梯度提升算法的思想类似于随机梯度下降。该算法中模型由若干个 F(x) 即基学习器构成，每个 F(x) 都拥有一个权重 Weight，初始化时各个权重相同，之后不断地将模型计算结果与真实结果进行比较，如果出错则增加错误样本的权重并基于新权重样本，让模型朝着损失减少最快的负梯度方法进行优化。其整体可以看做是 Bossting 方法，主要思想是每一次建立模型都是在之前建立模型损失函数的梯度下降方向，即"每次沿着当前位置最陡峭，损失下降最快的方向移动"。

二.GBDT 理论

决策树相对来说很直观形象，同学们也很好理解，但是到了梯度提升树，负梯度、最

了解本专栏

超级会员免费看

评论 29

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BIT_666 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。