推荐系统面试题之机器学习（一） -----树模型

最新推荐文章于 2021-09-26 15:14:10 发布

原创

最新推荐文章于 2021-09-26 15:14:10 发布 · 5.1k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #推荐系统 #计算广告 #面试题 #面经

1. 简单介绍一下XGB
2. XGBoost为什么使用泰勒二阶展开？为什么用二阶信息不用一阶？
3. XGBoost在什么地方做的剪枝，怎么做的？
4. XGBoost如何分布式？特征分布式和数据分布式？各有什么存在的问题？
5. XGBoost里处理缺失值的方法？
6. XGBoost有那些优化？
7. xgboost对预测模型特征重要性排序的原理？
8. XGBoost如何寻找最优特征？是又放回还是无放回的呢？
9. GBDT和XGBoost的区别是什么？
10. lightgbm和xgboost有什么区别？他们的loss一样么？算法层面有什么区别？
12. 比较一下LR和GBDT？GBDT在什么情况下比逻辑回归算法要差？
13. RF和GBDT的区别；RF怎么解决的过拟合问题；
15. 怎么理解决策树、xgboost能处理缺失值？而有的模型(svm)对缺失值比较敏感？
16. 随机森林是怎样避免ID3算法信息增益的缺点的？
17. gbdt对标量特征要不要onehot编码？
18. CART为什么选择基尼系数作为特征选择标准？
19. 如何解决类别不平衡问题？
20. GBDT 如何用于分类？
21. Adaboost的原理?
22. Sklearn中树模型输出的特征重要程度是本身的还是百分比？
23. RF的随机性体现在哪里？特征重要程度的计算？
24. Bagging，Boosting二者之间的区别？
25. 为什么决策树之前用pca会好一点？
26. 为什么随机森林的树比gbdt的要深一点？

1. 简单介绍一下XGB?

Xgboost由很多分类和回归树组成，采用boosting集成学习，集成学习是指用某种策略将多个分类器预测的结果集成起来，作为最终的预测结果，有boost和bagging两种方法(boosting 各分类器之间有依赖关系，bagging各分类器之间没有依赖关系，可并行)，boosting分为两种，一种是AdaBoost(自适应增强)(前一个分类器分错/分对的样本的权值会得到加强/降低，加权后的全体样本再次被用来训练下一个基本分类器)，一种是GBDT，GBDT的每一次计算都为了减少上一次的残差，进而在负梯度的方向上建立一个新的模型，而XGB采用的就是GBDT的形式，XGB的本质上还是一个GBDT，但是在速度和效率都发挥到了极致。XGB和GBDT比较大的不同就是目标函数的定义，XGB使用泰勒展开来近似目标函数
在这里插入图片描述
目标函数分为两个部分：误差函数(logistic损失函数、平方损失函数)和正则化项（定义模型的复杂度）（叶子结点尽量少，节点数值w不极端）
将目标函数化简之后，目标函数只依赖于一阶导数g和二阶导数h
（将目标函数和正则化项结合化简，对w进行求导，求出最优w，代入目标函数中）
在这里插入图片描述

这个分数越小，代表树的结构越好

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。