关于XGBoost一些浅薄理解

最新推荐文章于 2021-07-30 18:17:37 发布

staryxx

最新推荐文章于 2021-07-30 18:17:37 发布

阅读量501

点赞数

分类专栏：原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/staryxx/article/details/89578335

版权

原理专栏收录该内容

2 篇文章

订阅专栏

决策树：（分类）

灵魂——依靠某种指标进行树的分裂达到分类或回归的目的，总希望是纯度越高越好

Eg：ID3算法就用信息增益度量属性选择标准，选择分裂后信息增益最大的属性进行分裂

CART，Classification And Regression Tree——分类与回归分析

相同点：本质都是特征到结果、标签的映射

不同点：分类样本输出是类的形式（离散），回归输出是实数（连续数值型）

故回归树无法利用分类树的信息增益等形式进行判定分类，要用新的方式评估效果，比如预测误差（NDCG，MAP等）

一个回归树形成的关键点在于：

分裂点依据什么来划分（如前面说的均方误差最小，loss）；

分类后的节点预测值是多少（如前面说，有一种是将叶子节点下各样本实际值得均值作为叶子节点预测误差，或者计算所得）

集成学习：

是指构建多个分类器（弱分类器）对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果

集成学习根据各个弱分类器之间有无依赖关系，分为Boosting和Bagging两大流派：

Boosting流派，各分类器之间有依赖关系，必须串行，比如Adaboost、GBDT、Xgboost

Bagging流派，各分类器之间没有依赖关系，可各自并行，比如随机森林（Random Forest）

GBDT（Gradient Boost Decision Tree)每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型。残差=实际值-预测值

Xgboost：

如果不考虑工程实现、解决问题上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义

我们的目标是希望建立K个回归树，使得树群的预测值尽量接近真实值（准确率）而且有尽量大的泛化能力（更为本质的东西）

误差/损失函数揭示训练误差，鼓励我们的模型尽量去拟合训练数据，使得最后的模型会有比较少的 bias。而正则化项定义复杂度，鼓励更加简单的模型。因为当模型简单之后，有限数据拟合出来结果的随机性比较小，不容易过拟合，使得最后模型的预测更加稳定。

Xgboost输出

Out[32]:array([ 0.20081411, 0.80391562, 0.20081411, 0.80391562, 0.80391562,

0.80391562, 0.20081411, 0.80391562, 0.80391562, 0.80391562,

0.80391562, 0.80391562, 0.80391562, 0.20081411, 0.20081411,

0.20081411, 0.20081411, 0.20081411, 0.20081411, 0.20081411])

数组中每个数值表示每个样本在所有树中叶子结点的分布状况，可以用代码进行查看：

ypred_leaf = bst.predict(dtest, pred_leaf=True)

Out[33]:array([[1, 1, 1, ..., 1, 1, 1],

[2, 2, 2, ..., 2, 2, 2],

[1, 1, 1, ..., 1, 1, 1],

...,

[1, 1, 1, ..., 1, 1, 1],

[1, 1, 1, ..., 1, 1, 1],

[1, 1, 1, ..., 1, 1, 1]])

输出的维度为[样本数, 树的数量], 树的数量默认是100, 所以ypred_leaf的维度为[100*100].

对于第一行数据的解释就是, 在xgboost所有的100棵树里, 预测的叶子节点都是1(相对于每颗树).

每棵树的选取特征进行分裂不同，最后加起来得出分数（结果）

参考资料：

https://blog.youkuaiyun.com/weixin_41358871/article/details/81541482

https://blog.youkuaiyun.com/kizgel/article/details/78261672

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。