Task 06（XGBoost, LightGBM

最新推荐文章于 2024-12-04 17:17:06 发布

小果一粒沙

最新推荐文章于 2024-12-04 17:17:06 发布

阅读量147

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_35167821/article/details/121199630

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

本文探讨了梯度提升决策树（GBDT）与XGBoost的关系和区别，包括它们的目标损失函数、近似方法和分裂依据。GBDT通过梯度下降更新参数，而XGBoost引入了正则项并使用一阶和二阶导数进行近似。XGBoost的损失函数通常要求二阶导数为正，以确保优化过程的稳定性。此外，还提到了LightGBM的两种优化技术，GOSS减少了小梯度样本的处理，EFB通过特征绑定实现降维。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Task 08

侧边栏练习

【练习7】请写出 $L^{(m)}(F_i^{(m)})$ 在 $F_i^{(m)} = F_i^{(m-1)}$ 处的二阶展开。
$\begin{aligned} L^{(m)}(F_i^{(m)}) &= \gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2 + \sum_{i=1}^N [\cfrac{\partial L}{\partial h_i}|_{h_i=0}h_i + \cfrac{\partial^2 L}{\partial h_i^2}|_{h_i=0} h_i^2] + constant \\ &= \gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2 + \sum_{i=1}^N [\cfrac{\partial L}{\partial F_i^{(m-1)}}|_{F_i^{(m)} = F_i^{(m-1)}}(F_i^{(m)} - F_i^{(m-1)}) + \cfrac{\partial^2 L}{\partial (F_i^{(m-1)})^2}|_{F_i^{(m)} = F_i^{(m-1)}} (F_i^{(m)} - F_i^{(m-1)})^2 ] + constant \end{aligned}$

其中constant为 $\sum_{i=1}^N L(y_i, F_i^{(m-1)})$ .

【练习8】试说明不将损失函数展开至更高阶的原因。

展开到更高，所需要的计算量也就会更大，为了平衡准确率以及计算量，我们一般选择展开到二阶。

【练习9】请写出平方损失下的近似损失。

假设损失函数为：
$\hat{y}) = \cfrac{1}{2} \sum_{i=1}^N (y_i - \hat{y}_i)^2$

令 $h_i = y_i - \hat{y}_i$ ，则损失函数 $\hat{y})$ 的一节导数，二阶导数分别为 $p_i = h_i$ , $q_i = 1$

$\begin{aligned} \tilde{L}^{(m)}(\textbf{m}) &= \gamma T + \cfrac{1}{2} \sum_{j=1}^T w_j^2 + \sum_{i=1}^N [p_i h_i + \cfrac{1}{2} q_i h_i^2] \\ &= \gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2 + \sum_{i=1}^N[h_i^2 + \cfrac{1}{2} h_i^2] \\ &= \gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2 + \cfrac{3}{2} \sum_{i=1}^Nh_i^2 \\ &= \gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2 + \cfrac{3}{2} \sum_{j=1}^T[(\sum_{i \in I_j} 1) w_i^2] \\ &= \gamma T + \cfrac{1}{2} \sum_{j=1}^T [(\lambda +3 \sum_{i \in I_j} 1)w_i^2] \end{aligned}$

【练习10】在下列的三个损失函数 $\hat{y})$ 中，请选出一个不应作为XGBoost损失的函数并说明理由。

Root Absolute Error: $\sqrt{|y - \hat{y}|}$
Squared Log Error: $\cfrac{1}{2}[\log (\cfrac{y + 1}{\hat{y} + 1})]^2$
Pseudo Huber Error: $\delta^2(\sqrt{1 + (\cfrac{y - \hat{y}}{\delta})^2} - 1)$

第二个。因为第二个的损失函数关于 $\hat{y}$ 的二阶导数是关于 $\hat{y}$ 的函数，而是说存在有零点的。

【练习11】请求出顶点最大度（即最多邻居数量）为 $d$ 的无向图在最差和最好情况下需要多少种着色数，同时请构造对应的例子。

不会无向图… 学了来补

【练习12】在最差情况下LightGBM会生成几族互斥特征？这种情况的发生需要满足什么条件？
也不会。。。

知识回顾

1\ GBDT和梯度下降方法有什么联系？

GBDT 的参数的更新使用的时梯度下降法。
对损失函数关于参数求导，得到梯度，利用梯度下降法的更新公式来更新参数，使得损失函数朝着梯度的方向最速下降。

2、请叙述GBDT用于分类问题的算法流程。

(a) 建立M颗决策树(迭代M次
(b) 表示对函数估计值F(x) 进行losgistic变换, 进行softmax归一化
© for m in 1… M
1、计算属于第k类的概率为 $\cfrac{e^{F_{ki}}}{\sum_{c=1}^K e^{F_{ci}}}$ ,
2、令 $\textbf{y}_i = [y_{1i}, \cdots, y_{Ki}]$ 为第i个样本的类别独热编码,记 $\textbf{F}_i = [F_{1i}, \cdots, F_{Ki}]$
3、对每个样本计算损失:
$L(\textbf{y}_i, \textbf{F}_i) = - \sum_{c=1}^K y_{ci} \log \cfrac{e^{F_{ci}}}{\sum_{\tilde{c}=1^K e^{F_{\tilde{c}i}}}}$
4、对 $F_i^{*(m)}$ 进行梯度更新

5、 $h_i = F_i^{(m)} - F_i^{(m-1)}$，最后更新的学习学习器为$F_i^{(m-1)} + \eta h_i^{*(m)}$为更新之后的学习器

(d) 将 $F_i^{(M)}$ 作为最终的分类器输出

3、 XGBoost和GBDT树有何异同？（可从目标损失、近似方法、分裂依据等方面考虑）

目标损失：
GBDT: 使用的是预测值和真实值之间的差距度量的损失函数
$\begin{aligned} G(\textbf{w}) &= \sum_{i=1}^N L(y_i, F_i^{(m)}) \\ &= \sum_{i=1}^N L(y_i, F_i^{(m-1)} + w_i) \end{aligned}$
其中 $w_i$ 为我们要拟合的一颗树，这棵树使得 $F_i^{(m-1)} + h_m(X_i)$ 与 $y_i$ 之间的损失尽可能小。

XGBoost: 损失函数 + 正则项
$L^{(m)} = \gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2 + \sum_{i=1}^N L(y_i, F_i^{(m)})$

其中损失函数 $L(y_i, F_i^{(m)})$ 一般为我们定义的一个二阶导数恒为正的损失函数.

近似方法：
GBDT: 使用梯度下降来更新参数，即利用泰勒展开式的一阶导数来对目标函数进行拟合。
XGBoost：使用一阶导数和二阶导数来对目标函数进行拟合，其展开式为:
$$
\begin{aligned}
L^{(m)}(\textbf{h}) &=
\gamma T + \cfrac{1}{2} \lambda \sum_{j=1}^T w_j^2

\sum_{i=1}^N[
\cfrac{\partial L}{\partial h_i} |_{hi=0} h_i
\cfrac{1}{2} \cfrac{\partial^2L}{\partial h_i^2} |_{h_i=0} + constant
]
\end{aligned}
$$

其中 $\sum_{i=1}^N L(y_i, F_i^{(m-1)})$

分裂依据：

GBDT：按照信息增益或者CART树的gini指数来进行分裂
XGBoost: 将损失函数作为信息增益的另一种表现形式，对所有的特征，分别找到对应的分裂节点，将使得损失函数下降最大的分裂节点，以及分裂节点所对应的特征，作为我们用于分裂的特征和节点。

4\ 请叙述LightGBM中GOSS和EFB的作用及算法流程。

GOSS作用:
减少只具有小梯度的数据实例,便于在计算信息增益的时候, 只利用高梯度的数据. 这比XGBoost遍历所有特征值少了不少时间和空间上的开销.

GOSS算法流程
(a) 输入训练数据, 迭代的次数, 对大梯度数据采样的比例a,对小梯度数据采样的比例b, 定义损失函数
(b) i代表迭代次数, 从1 到 d开始迭代
对训练样本的梯度的绝对值进行降序排序
对降序后的结果选取钱a * 100%的样本生成一个大梯度样本点的子集
对剩下的集合(1-a) * 100% 的样本,随机的选取 $\cfrac{1-a}{b}$ 个样本点,生成一个小梯度样本点的集合
将大梯度样本和采样的梯度样本合并
将小梯度样本乘上一个权重系数
使用上述的采样样本,学习一个新的学习器
直到步骤达到d,或者收敛为止
EFB作用:
将许多互斥的特征绑定为一个特征, 这样达到了降维的目的.