大规模分类与回归树:GBM与XGBoost详解
1. 引言
在处理大规模数据集时,分类与回归树(CART)是一种强大的工具。我们可以尝试在更大的数据集上使用更多子样本的方法,或者对其中一个子样本应用随机搜索以进行更好的调优。除了之前介绍的装袋法(bagging),提升法(boosting)也是一种重要的集成方法,它可用于回归和分类任务,并且近年来在准确性上超越了随机森林。
2. 提升法概述
提升法是基于随机梯度下降原理的优化过程,通过最小化误差来优化模型。目前最常见的提升方法包括AdaBoost和梯度提升(GBM和最近的XGBoost)。AdaBoost算法致力于最小化预测稍有偏差的样本误差,使难以分类的样本得到更多关注。但近年来,由于其他提升方法通常更准确,AdaBoost逐渐失宠。
3. 梯度提升机(GBM)
3.1 GBM核心概念
GBM算法基于两个重要概念:加法扩展和最速下降法的梯度优化。
- 加法扩展 :生成一系列相对简单的树(弱学习器),每个后续树沿着梯度添加。假设我们有M棵树来聚合最终预测结果,在每次迭代中的树fk是模型中所有可能树的更广泛空间的一部分(在Scikit - learn中,此参数通常称为n_estimators)。预测结果是所有先前树和新添加树的预测之和,公式如下:
[
\hat{y} i = \sum {k = 1}^{M} f_k(x_i), f_k \in \Phi
]
[
\hat{y}_i^{(t)} = \hat{y}_i^{(t - 1)} + f_
超级会员免费看
订阅专栏 解锁全文
1384

被折叠的 条评论
为什么被折叠?



