XGBOOST整理

最新推荐文章于 2025-09-11 12:22:53 发布

m0_37891619

最新推荐文章于 2025-09-11 12:22:53 发布

阅读量278

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/m0_37891619/article/details/77826799

机器学习专栏收录该内容

3 篇文章

订阅专栏

1、目标函数

首先说一下目标函数，机器学习常见的目标函数主要由两部分组成：损失函数和正则化项。

$Obj(\Theta) = L(\Theta) + \Omega(\Theta)$

其中 $L(\Theta)=\sum_{i=1}^{n}l(\hat{y_i}, y_i)$ 的形式主要有两种:

平方损失函数： $l(\hat{y_i}, y)=(\hat{y_i}-y_i)^2$

逻辑损失函数： $l(\hat{y_i}, y)=y_i\ln(1+e^{-\hat{y_i}})+(1-y_i)\ln(1+e^{\hat{y_i}})$

正则化函数主要有两种：

L1正则化： $\Omega(\Theta)=\lambda||\omega||$

L2正则化： $\Omega(\Theta)=\lambda||\omega||^{2}$

其中损失函数的主要作用是衡量模型拟合训练数据的能力；正则化项的主要作用是使得模型更加简单一些。

2、Regression tree(CAST)和Regression Tree Ensemble

2.1. Regression tree (also known as classification and regression tree):

 Decision rules same as in decision tree

 Contains one score in each leaf value

是否玩电脑游戏CAST树

2.2 Regression Tree Ensemble

这里写图片描述

2.3 集成方法(Tree Ensemble methods)的优点:

（1）被广泛的应用，如GBDT，随机森林等；

（2）对于输入的范围不是很明感，因而你不必需要细致的去做特征的归一化；

（3）可以学得特征间的相互关系；

（4）可以规模化，广泛应用于工业界。

3、模型和参数

3.1 模型

假定我们有K棵树:

$y_i=\sum_{k=1}^{K}f_k(x_i)$

其中 $f_k\in{F}$ ， $F$ 表示所有回归树的函数空间。

Think: regression tree is a function that maps the attributes to the score

3.2 参数

（1）每棵树的的结构，树上叶子的分数；

（2）或者使用树的函数作为参数：

$\Theta = \{f_1, f_2,...,f_K\}$

我们该如何学得一棵树呢？

定义一个目标函数，并且去优化它！！

3.3 集成方法的目标函数

模型： $y_i=\sum_{k=1}^{K}f_k(x_i)$
目标函数： $Obj = \sum_{i=1}^{n}l(\hat(y_i),y_i)+\sum_{k=1}^{K}\Omega(f_k)$

这里写图片描述

4、Gradient Boosting

目标函数：

$Obj = \sum_{i=1}^{n}l(y_i, \hat{y_i})+\sum_{k=1}^{K}\Omega(f_k)$

其中 $f_k\in F$ .

在这里我们不能通过SGD(随机梯度下降)来最优化这个目标函数，从而

找到 $f$ ，因为 $f$ 是一棵树，而不是一个数字向量。

解决方案：加法模型（Boosting）

通过每次在原函数上添加一个新的函数来进行迭代：

$\hat{y_i}^{(0)} = 0$

$\hat{y_i}^{(1)} = f_1(x_i) =\hat{y_i}^{(0)} +f_1(x_i)$

$\hat{y_i}^{(2)} = f_1(x_i)+f_2(x_i)=\hat{y_i}^{(1)} +f_2(x_i)$

$\hat{y_i}^{(t)} = \sum_{k=1}^{t-1}f_k(x_i)=\hat{y_i}^{(t-1)} +f_t(x_i)$

那现在的问题是我们该怎么得到每次迭代中所添加的 $f$ 呢？

答案就是最优化目标函数。

在第t轮时，模型函数变为 $\hat{y_i}^{t} = \hat{y_i}^{t-1}+f_t(x_i)$

$Obj = \sum_{i=1}^{n}l(y_i, \hat{y_i}^{t-1}+f_t(x_i))+\sum_{k=1}^{t}\Omega(f_k)+constant$

对于平方损失函数：
$Obj = \sum_{i=1}^{n}[2(\hat{y_i}^{t-1}-y_i)+f_t(x_i)^2]+\sum_{k=1}^{t}\Omega(f_k)+constant$

对于平方损失函数，目标函数的形式并不是很复杂，但是对于其它形式的损失函数，我们该怎么办呢？

在这里我们通过泰勒展开式来近似目标函数。

函数的泰勒展开式：
$f(x+\Delta{x}) \approx f(x)+f'(x)\Delta(x)+\frac{1}{2}f''(x)\Delta(x)^2$

令 $g_i = \frac{ \partial{l(y_i, \hat{y}^{t-1})}}{\partial{\hat{y}^{t-1}}}$ ，

$h_i = \frac{\partial^2{l(y_i, \hat{y}^{t-1})}}{\partial^2{\hat{y}^{t-1}}}$

则目标函数的近似为：

$Obj \approx \sum_{i=1}^n[l({y_i, \hat{y_i}^{t-1}}) + g_if_i(x_i)+\frac{1}{2}h_if^{2}(x_i)] + \sum_{k=1}^t\Omega(f_k)+constant$

我们把固定值移除，则目标函数近似为：

$\sum_{i=1}^n[l({y_i, \hat{y_i}^{t-1}}) + g_if_i(x_i)+\frac{1}{2}h_if^{2}(x_i)] + \Omega(f_k)$

这里写图片描述

然后我们来重新定义一下需要学习的树，我们使用一系列的叶子分数来表示树的结构：

$f_t(x) = \omega_{q(x)}$

其中 $\omega$ 表示树上叶子的权重， $q(x)$ 表示树的结构。

这里写图片描述

树的结构复杂度表示为：

$\Omega(f_t) = \gamma{T}+\frac{1}{2}\lambda\omega^2$

其中 $T$ 表示树上叶子的个数， $\omega表示叶子的权重$ 。

这里写图片描述

定义： $I_j = \{i|q(x_i) = j\}$

则目标函数可以表示为：

$Obj^{(t)} \approx \sum_{i=1}^n[g_if_i(x_i)+\frac{1}{2}h_if^{2}(x_i)] + \sum_{k=1}^t\Omega(f_k)=\sum_{i=1}^n[g_i\omega_{q(x_i)}+\frac{1}{2}h_i\omega^2_{q(x)}]+ \gamma{T}+\frac{1}{2}\lambda\sum_{j=1}^T\omega_j^2=\sum_{j=1}^{T}[(\sum_{i\in{I_j}}g_i)\omega_j+\frac{1}{2}(\sum_{i\in{I_j}}h_i+\lambda)\omega^2_j]+\gamma{T}$