20、大规模分类与回归树:GBM与XGBoost详解

大规模分类与回归树:GBM与XGBoost详解

1. 引言

在处理大规模数据集时,分类与回归树(CART)是一种强大的工具。我们可以尝试在更大的数据集上使用更多子样本的方法,或者对其中一个子样本应用随机搜索以进行更好的调优。除了之前介绍的装袋法(bagging),提升法(boosting)也是一种重要的集成方法,它可用于回归和分类任务,并且近年来在准确性上超越了随机森林。

2. 提升法概述

提升法是基于随机梯度下降原理的优化过程,通过最小化误差来优化模型。目前最常见的提升方法包括AdaBoost和梯度提升(GBM和最近的XGBoost)。AdaBoost算法致力于最小化预测稍有偏差的样本误差,使难以分类的样本得到更多关注。但近年来,由于其他提升方法通常更准确,AdaBoost逐渐失宠。

3. 梯度提升机(GBM)
3.1 GBM核心概念

GBM算法基于两个重要概念:加法扩展和最速下降法的梯度优化。
- 加法扩展 :生成一系列相对简单的树(弱学习器),每个后续树沿着梯度添加。假设我们有M棵树来聚合最终预测结果,在每次迭代中的树fk是模型中所有可能树的更广泛空间的一部分(在Scikit - learn中,此参数通常称为n_estimators)。预测结果是所有先前树和新添加树的预测之和,公式如下:
[
\hat{y} i = \sum {k = 1}^{M} f_k(x_i), f_k \in \Phi
]
[
\hat{y}_i^{(t)} = \hat{y}_i^{(t - 1)} + f_

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值