GBDT与XGB的异同

GBDT与XGBoost同为boosting方法,XGBoost是GBDT的增强版,支持CART树和线性分类器,并引入了列抽样、二阶导数优化、自动处理缺失值等特性。XGBoost还支持并行计算和正则化,有效防止过拟合,提高模型泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、xgboost怎么给特征打分?如何解决缺失值问题?

1)在训练的过程中,通过gini指数选择分离点的特征,一个特征被选中的次数越多,评分越高。2)xgboost对缺失值有默认的处理方法,对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向,可以大大的提升算法的效率。

2、什么是OOB?随机森中OOB如何计算的?(为什么不用交叉验证?)

随机森林采用的bagging方法,其中有放回的采样过程,每次都有一定比例的数据没被选中,也就是说没有参加当前决策树的建立,把这部分数据成为袋外数据,可用来取代测试集做误差估计。所以在随机森林算法中,不需要再进行交叉验证或单独的测试集。

3、学习器结合的好处?

1)统计学角度,由于学习任务的假设空间往往很大,很多假设在训练集上表现的差不多,如果仅仅使用单个学习器,可能会导致泛化性能降低,而通过结合多个学习器,可以减小这一问题。2)计算角度看,单个学习器容易陷入局部最优,通过多次运行之后结合,可降低陷入局部最优的风险。

4、训练过程中,每轮训练一直存在分类错误的问题,整个Adaboost却能快速收敛,为何?

每轮训练结束后,AdaBoost框架会对样本的权重进行调整,该调整的结果是越到后面被错误分类的样本权重会越高。这样到后面,单个弱分类器为了达到较低的带权分类误差都会把样本权重高的样本分类正确。虽然单独来看,单个弱分类器仍会造成分类错误,但这些被错误分类的样本的权重都较低,在AdaBoost框架的最后输出时会被前面正确分类的高权重弱分类器“平衡”掉。这样造成的结果就是,虽然每个弱分类器可能都有分错的样本,然而整个AdaBoost框架却能保证对每个样本进行正确分类,从而实现快速收敛。


面试同样经常被问到,记录一下!

相同点:

(1)GBDT与XGB同属于boosting方法;

(2)XGB可以说是GBDT的高配版。

不同点:

(1).从基分类器来说,GBDT只能使用CART树,而XGB同时支持CART树和线性分类器,这个体现在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值