GBRT 要点理解

最新推荐文章于 2025-03-25 03:00:00 发布

转载最新推荐文章于 2025-03-25 03:00:00 发布 · 436 阅读

3 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/datawang/p/6362016.html

文章标签：

#c/c++

本文详细解释了Gradient Boosting Regression Trees (GBRT)的工作原理及其关键步骤，包括损失函数的选择、迭代过程及如何通过梯度下降减少残差。此外还讨论了GBRT的优点、缺点以及重要的超参数。

1. 首先要理解Boost和Gradient Boost。前者是在算法开始时候，，为每一个样本赋上一个相等的权重值，也就是说，最开始的时候，大家都是一样重要的。在每一次训练中得到的模型，会使得数据点的估计有所差异，所以在每一步结束后，我们需要对权重值进行处理，而处理的方式就是通过增加错分类点的权重，这样使得某些点如果老是被分错，那么就会被“严重关注”，也就被赋上一个很高的权重。然后等进行了N次迭代（由用户指定），将会得到N个简单的基分类器（basic learner），最后将它们组合起来，可以对它们进行加权（错误率越大的基分类器权重值越小，错误率越小的基分类器权重值越大）、或者让它们进行投票等得到一个最终的模型。

Gradient Boost与传统的Boost有着很大的区别，它的每一次计算都是为了减少上一次的残差(residual)，而为了减少这些残差，可以在残差减少的梯度(Gradient)方向上建立一个新模型。所以说，在Gradient Boost中，每个新模型的建立是为了使得先前模型残差往梯度方向减少，与传统的Boost算法对正确、错误的样本进行加权有着极大的区别。它主要的思想是，每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数(loss function)描述的是模型的不靠谱程度，损失函数越大，则说明模型越容易出错（其实这里有一个方差、偏差均衡的问题，但是这里假设损失函数越大，模型越容易出错）。如果我们的模型能够让损失函数持续的下降，则说明我们的模型在不停的改进，而最好的方式就是让损失函数在其梯度（Gradient）的方向上下降。

2. 要理解Gradient Boost有以下几个步骤，

首先，我们需要有训练集，损失函数和迭代次数。损失函数事实上是可以任意的，如果是平方损失函数，则对其求导就是残差。损失函数是可以任意的。如使用指数损失函数，则可以对错分样本放大来boost。

其次，初始化第一颗树后，我们需要计算损失函数在现有模型上的梯度方向，这个向量就是算法下面的，这个向量怎么计算呢，对于平方损失函数来说，其求导就是残差值，对其他损失函数，也可以根据求导函数求的