机器学习总结二：boosting之GBDT、XGBT原理公式推导

原创

已于 2023-10-20 09:34:19 修改 · 2.8k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #boosting

于 2022-09-12 21:44:24 首次发布

本文详细介绍了Boosting方法中的决策树、GBDT和XGBoost原理，包括损失函数计算、模型构建流程、泰勒展开优化以及XGBoost中正则化的运用。通过实例和公式推导，深入剖析了如何通过负梯度和结构分数求解最优模型。

一、Bagging之决策树、随机森林原理与案例

二、boosting之GBDT、XGBT原理推导与案例

三、SVM原理推导与案例

四、逻辑回归与反欺诈检测案例

五、聚类之K-means

Boosting

1. 简介

通过在数据上构建多个弱评估器，汇总所有弱评估器的建模结果，以取得比单个模型更好的分类或回归表现。
加法模型，前向分步计算学习。

2. 基本元素

弱评估器f(x)：一般为决策树(cart树)，不同boosting算法建立新树的过程不同
损失函数L(x,y)：衡量模型预测结果与真实结果的差异
集成结果H(x)：汇总所用弱评估器的结果进行输出

3. 算法提升流程

1. 依据上一个弱评估器集成的结果，计算损失函数L(x,y)

$L(y,\sum_{k=1}^{t-1} f_k(x))$

1. 使用L(x,y)自适应的影响下一个弱评估器的构建

$f_{k=t}(x)$

1. 更新弱评估器集成的结果

$H(x)=\sum_{k=1}^{t-1} f_k(x)+f(x)_t$

注意：

各种boosting算法的不同之处在于使用不同的方式影响后续评估器的构建

4. GBDT原理

4.1 优化目标：新建的树使目标函数越来越小
4.2 泰勒一阶展开式

$f(x+\triangle x) \approx f(x)+f'(x)\triangle x$

4.3 GBDT目标函数求解过程
1. 设定目标函数
  $=\sum_{i=1}^nL(y_i,\widehat{y_i})$
  
  $n : 所有样本的个数； i : 代表每个样本$
2. 代入树模型
  $=\sum_{i=1}^nL(y_i,f(x_i)_{t-1}+f(x_i)_t)$
  
  $f(x_i)_{t-1}:代表前t-1棵树的结果；f(x_i)_t :代表本轮要新建的树模型$
3. 将目标函数进行一阶泰勒展开
  $\approx \sum_{i=1}^n[L(y_i,f(x_i)_{t-1})+ \frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}*f(x_i)_t]$
  
  $f(x_i)_t:相当于泰勒泰勒展开式中的\triangle x$
4. 因为L(y_i,f(x_i)_{t-1})是定值，新树要使obj减小的必要条件为：
  $\frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}*f(x_i)_t \leq 0$
5. 上述不等式成立的充分非必要条件为：
  $f(x_i)_t = -\frac{\delta'L(y_i,f(x_i)_{t-1})}{\delta f(x_i)_{t-1}}$
  
  $即建立的新树拟合结果为前 t - 1 轮预测结果对应的目标函数的负梯度$
6. 最终新树模型生成要求
  - 新树模型拟合上一轮结果的负梯度
  - 使用基尼系数或信息熵，进行最佳分裂点

5. XGBT原理

5.1 优化目标：新建的树使目标函数越来越小
5.2 泰勒二阶展开式

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。