机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树GBDT、XGBoost、LightGBM、CatBoost 微信公众号:数学建模与人工智能 一、决策树(Desision Tree) 1.一棵决策树的生成过程分为以下3个部分 决策树的生成 ID3算法-最大信息增益 C4.5-最大信息增益比 CART算法-最大基尼指数(Gini) 2.决策树如何剪枝 3.决策树怎么处理连续特征 4.决策树怎么处理缺失值 5.三种不同的决策树的差异 6.树形结构为什么不需要归一化? 7.回归决策树 8.决策树的目标函数 二、随机森林(Random Forest) 1.Bagging 随机森林 每棵树的按照如下规则生成: 2.随机森林为什么比bagging效率高? 3.随机森林分类效果的影响因素 4.什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点? 5.随机森林有什么优缺点 优点: 缺点: 6.随机森林如何处理缺失值? 7.如何使用随机森林对特征重要性进行评估 三、梯度提升决策树(GBDT) 1.Boosting思想 2.GBDT原理 3.GBDT使用的决策树都是CART回归树,为什么不用CART分类树呢? 4.为何gbdt可以用负梯度近似残差呢? 5.梯度提升和梯度下降的区别和联系是什么? 6.为什么GBDT需要归一化? 7.GBDT的优点和局限性有哪些? 优点 局限性 8.RF(随机森林)与GBDT之间的区别与联系 相同点: 不同点: GBDT调参 9.GBDT是如何做回归的 四、XGBoost 1.什么是XGBoost 2.如何停止树的循环生成 3.XGBoost与GBDT有什么不同 4.为什么XGBoost要用泰勒展开,优势在哪里? 5.XGB如何处理缺失值 6.XGB如何处理不平衡数据 7.XGB如何评价特征的重要性 8.XGB和LGB的区别 五、LightGBM 1.LightGBM是什么?https://github.com/Microsoft/LightGBM 2.LightGBM在哪些地方进行了优化 (区别XGBoost)? 3.Histogram算法 4.LightGBM优点 六、CatBoost 1.相比于XGBoost、LightGBM,CatBoost的创新点有哪些? 如何从减小方差和偏差的角度解释Boosting 和Bagging 的原理? Adaboost(Boosting思想) 微信公众号:数学建模与人工智能 一、决策树(Desision Tree) 1.一棵决策树的生成过程分为以下3个部分 特征选择:指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。