xgbt总结二

最新推荐文章于 2023-09-24 22:54:53 发布

转载最新推荐文章于 2023-09-24 22:54:53 发布 · 2.7k 阅读

传统机器学习基础专栏收录该内容

8 篇文章

订阅专栏

https://yxzf.github.io/2017/03/xgboost-v1/

XGBoost有如下优点:

显示的把树模型复杂度作为正则项加到优化目标中。
公式推导中用到了二阶导数，用了二阶泰勒展开。
实现了分裂点寻找近似算法。
利用了特征的稀疏性。
数据事先排序并且以block形式存储，有利于并行计算。
基于分布式通信框架rabit，可以运行在MPI和yarn上。
实现做了面向体系结构的优化，针对cache和内存做了性能优化。

决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

我们可以发现我们的模型对特征中的值的范围不敏感，只对顺序敏感。

###先假设目标函数

####通过boosting的特性，来转化目标函数即

现在我们的参数可以认为是在一个函数空间里面，我们不能采用传统的如SGD之类的算法来学习我们的模型，因此我们会采用一种叫做additive training的方式。每一次保留原来的模型不变，加入一个新的函数ff到我们的模型中。

###进行泰勒展开：转化的结果为，得到误差函数跟一阶与二阶倒数表达式

###再解决模型复杂度，得到最后的目标函数，为何选取L2，可以思考下。

将最终得到的目标函数对参数w求导，可得wj ,带回目标函数，可得新的目标函数。

可知目标函数值由红色方框部分决定：

###贪心算法

XGBoost也是采用贪心算法，每一次尝试去对已有的叶子加入一个分割。对于一个具体的分割方案，增益计算如下：

对于每次树的扩展，需要枚举所有可能的分割方案，如何高效地枚举所有的分割呢？假设要枚举所有 x<ax<a这样的条件，对于某个特定的分割aa，要计算aa左边和右边的导数和。对于所有的aa，首先根据需要划分的那列特征值排序，然后从左到右的扫描就可以枚举出所有分割的梯度和GLGL和GRGR，再用上面的公式计算每个分割方案的分数就可以了。

上面是针对一个特征，如果有m个特征，需要对所有参数都采取一样的操作，然后找到最好的那个特征所对应的划分。从而导致了无法进行分布式？即XGBoost使用exact greedy算法来寻找分割点建树，但是当数据量非常大难以被全部加载进内存时或者分布式环境下时，exact greedy算法将不再合适。