机器学习系列6：XGBoost

最新推荐文章于 2025-05-18 17:06:01 发布

原创

最新推荐文章于 2025-05-18 17:06:01 发布 · 547 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#XGBoost

该系列将整理机器学习相关知识。这篇博客主要讨论:
1 XGBoost的算法原理
2 XGboost参数调优

由于本人水平有限，目前也是在持续学习中，这篇博客在原论文和XGBoost官网基础上整理，如有出入请留言说明，非常感谢

XGBoost是Extreme Gradient Boosting的简称，Gradient Boosting是论文"Greedy Function Approximation: A Gradient Boosting Machine"中介绍的梯度提升算法。Boosting Tree树数据挖掘和机器学习中常用算法之一，其对输入要求不敏感，效果好，在工业界用的较多(kaggle比赛必用)。

1 背景知识

1.1 Traing loss + Regularization

XGBoost用于监督学习问题（分类和回归）。监督学习的常用目标函数是：
通常目标函数包含两部分:训练误差和正则化
$o b j (θ) = L (θ) + Ω (θ)$
其中L是损失函数,度量模型预测与真实值的误差。常用的损失函数：
预测问题的平方损失函数：
$L(\theta) = \sum_{i}{(y_i-\hat{y_i})}^2$
logistic 损失：
$L(\theta) = \sum_{i}[y_i ln(1+e^{-\hat{y_i}}) +(1-y_i) ln(1+e^{\hat{y_i}})]$
$Ω$ 是正则化项，度量模型的复杂度，避免过拟合，常用的正则化有L1 和L2正则化。

1.2 Tree模型融合（集成）

Boosting Tree 最基本的部分是回归树(GBDT中用到的也是回归树，而不是分类树)，也即是CART（如下图），CART会把输入根据属性分配到各个叶子节点上，而每个叶子节点上面会对应一个分数值。下面的例子是预测一个人是否喜欢电脑游戏。将叶子节点表示为分数之后，可以做很多事情，比如概率预测，排序等等。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TL0FhQqH-1576119372588)(http://7xnzwk.com1.z0.glb.clouddn.com/15149016431943.jpg)]
一个CART往往过于简单，而无法有效的进行预测，因此更加高效的是使用多个CART进行融合，使用集成的方法提升预测效率：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PtUiqY4M-1576119372590)(http://7xnzwk.com1.z0.glb.clouddn.com/15147876733214.jpg)]

假设有两颗回归树，则两棵树融合后的预测结果如上图。用公式表示为：
$\hat{y_i}=\sum_{k=1}^{K}f_k(x_i),f_k\in\mathscr{F}$
其中， K是树的个数， $f_k(x_i)$ 是第k棵树对于输入 $x_i$ 输出的得分， $f_k $是相应函数， $\mathscr{F}$ 是相应函数空间。则目标函数为：
$obj(\theta)=\sum_i^n L(y_i,\hat{y_i})+\sum_{k=1}^K\Omega(f_k)$

函数 $L$ 描述 $y_i$ ， $\hat{y_i}$ 之间的距离。
常用的模型融合方法是Random Foreast和Boosting Tree,这两种方法构造树的方式不同(参考系列前面的集成学习一节)。Tree Ensemble中，模型的参数是什么呢？其实就是指树的结构和叶子节点上面分数的预测。如何求参数？定义目标函数，通过优化目标函数进行求解。