RF详解以及常见面试题

最新推荐文章于 2025-02-13 22:21:40 发布

原创

最新推荐文章于 2025-02-13 22:21:40 发布 · 2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #机器学习

随机森林RF是一种抗过拟合能力强的模型，通过数据集随机抽样和节点特征随机选择增加多样性。RF相比SVM，具有较少的参数调整需求和良好的并行性。在面试中，RF常与SVM比较，其优势在于容易构建鲁棒模型，并能通过 Bagging 策略降低过拟合风险。与GBDT的区别在于RF采用bagging，而GBDT使用boosting。

学习RF的心得体会以及搜集的一些面试题

RF
- 数据集随机
- 节点特征随机
RF相关面试题

RF

之前说过了决策树,试想一下如果有很多千姿百态的决策树组成了一个森林，那么以每个树的预测结果投票得到最后的模型输出的话，是不是能得到一个更加鲁棒，抗过拟合能力比较好的模型了。
回顾一下决策树生成的过程，重复对一个数据集生成决策树的话，树形是确定的，也就是说每次生成的树是一样的，这样的话就达不到生成千姿百态的决策树再组成森林的目的了；同样的决策树组成森林结果是不变的，所以这个时候就需要增加一点随机性来干扰树的生成过程。

数据集随机

RF可以认为是bagging+决策树的产物，对于森林中的每颗决策树，用来训练的数据集是不同的,每次按照有放回的采样方法得到一个和原始数据等大的数据集（这里又出现了一个神奇的数字，36.8%也就是1/e的数据不会被选取到），未被选取的数据可以作为验证集对泛化性能做包外估计（oob）。

节点特征随机

随机森林的随机操作还没有完，除了每棵树用的数据集不同，其生长过程也是充满了随机和意外，这也是RF泛化误差低于单纯的bagging+决策树的原因，正常的决策树分裂节点时是从所有的属性中寻找基尼系数最好的；而RF就充满以外了，它会从节点属性中先随机选出d个属性，再从这里面选择基尼系数最好的，这种思想也符合集成学习让基学习器不同的理念。
在这里插入图片描述
上图来自西瓜书，可以看到RF在基分类器数量不够时，因为其随机性性能会下降，但是到了一点程度就体现出其鲁棒性和抗过拟合的优势了。