Spark 3.0 - 12.ML GBDT 梯度提升树理论与实战

本文详细介绍了Spark 3.0中的GBDT(Gradient Boosting Decision Tree)算法,从理论到实战,涵盖了集成学习、分类与回归问题、梯度提升和GBDT的生成过程。GBDT是一种利用决策树集成的分类和回归方法,通过串行生成基学习器来降低模型的损失函数,逐步拟合残差。实战部分涉及数据准备、构建GBDT Pipeline以及预测与评估,展示了如何在Spark中应用GBDT进行高效预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一.引言

二.GBDT 理论

1.集成学习

2.分类 & 回归问题

3.梯度提升

4.GBDT 生成

三.GBDT 实战

1.数据准备

2.构建 GBDT Pipeline

3.预测与评估

四.总结


一.引言

关于决策树前面已经介绍了常规决策树与随机森林两种类型的知识,本文主要介绍梯度提升树 Gradient Boosting Decision Tree 即常说的 GBDT,其实一种使用决策树集成的流行分类和回归方法。梯度提升算法的思想类似于随机梯度下降。该算法中模型由若干个 F(x) 即基学习器构成,每个 F(x) 都拥有一个权重 Weight,初始化时各个权重相同,之后不断地将模型计算结果与真实结果进行比较,如果出错则增加错误样本的权重并基于新权重样本,让模型朝着损失减少最快的负梯度方法进行优化。其整体可以看做是 Bossting 方法,主要思想是每一次建立模型都是在之前建立模型损失函数的梯度下降方向,即"每次沿着当前位置最陡峭,损失下降最快的方向移动"。

二.GBDT 理论

决策树相对来说很直观形象,同学们也很好理解,但是到了梯度提升树,负梯度、最

评论 29
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BIT_666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值