1. 梯度提升机与随机森林的区别是什么?
梯度提升机通过提升弱学习器获得强学习器,随机森林通过集成多个决策树获得强学习器。
2. 如何判断梯度提升决策树模型是否过拟合?
通过验证集效果下降或验证集效果与训练集效果差距过大判断。
3. 如何解决梯度提升决策树的过拟合问题?
减小学习率、减少迭代次数、限制树的复杂度、ADO提早停止等。
4. 梯度提升树如何处理分类问题?
使用交叉熵损失函数,在叶节点给出类别概率。
5. 梯度提升树如何处理回归问题?
使用均方误差损失函数,在叶节点给出目标变量的预测值。
6. 梯度提升决策树在什么情况下效果好?
数据集较大,特征较多的情况下效果好。
7. 如何并行化训练梯度提升决策树模型?
使用多个节点,每个节点训练一部分树,最后汇总。
8. 梯度提升决策树中,新弱学习器如何关注前面弱学习器的误差?
新弱学习器的训练集为前面弱学习器的误差(真实值与预测值的差)和原训练集。
9. 梯度提升决策树如何选择分裂点?
通过损失函数的一阶或者二阶导数选择使损失函数减小最快的分裂点。
10. 梯度提升决策树的提升过程是什么?
初始化弱学习器,计算 residules,基于 residules 训练新的弱学习器,更新强学习器,重复此过程直至结束。
11. 梯度提升决策树学习率的作用是什么?
学习率控制每棵树对强学习器的贡献,值太大会导致过拟合,值太小会导致训练时间过长。
12. 梯度提升决策树如何终止迭代?
設定迭代次數,或當验证集误差不再减小時停止。
13. 梯度提升树能否进行在线学习?
可以,每获取一个新样本就更新强学习器。
14. 梯度提升树如何解释其预测结果?
可以通过分析每棵树的结构理解提升树的判断依据。
15. XGBoost是什么?
XGBoost 是梯度提升决策树的高效实现,是一个开源的分布式深度树加速器。
16. XGBoost 与 GBM(梯度提升机)有什么区别?
XGBoost 在算法实现和效率上对 GBM 进行了改进,如处理缺失值更加高效,并行化更易实现等。
17. 梯度提升树如何处理缺失值?
在分裂点考虑缺失值,或通过其他方法填补缺失值后再建树。
18. 梯度提升树的叶节点如何确定?
通过最大深度限制或最少样本数限制来确定叶节点。
19. 梯度提升树如何进行特征选择?
内部实现了特征重要性度量,可选择重要特征。也可以结合其他方法进行特征选择。
20. 梯度提升树何时需要进行剪枝?
当模型出现过拟合时,可以对树进行后剪枝来避免过拟合。