基本算法梳理(2)-random forest_随机森林不能处理二进制特征。-优快云博客

本文链接：https://blog.youkuaiyun.com/mashagua/article/details/89036056

本文探讨了随机森林算法产生的背景，即为了解决决策树过拟合问题。介绍了随机森林的生成方法，包括自助采样和特征随机选取等步骤，并讨论了其优缺点。此外，还详细解释了在Python的scikit-learn库中实现随机森林的关键参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

接上篇：
随机森林的思想
1 为什么会产生随机森林
解决决策树的过拟合问题。
2 随机森林的产生方法
给定一个有n个样本的训练集{X，Y}，
for b=1,…,B:
1.从X中有放回的采样n个样本，组成集合{Xb，Yb}；
2.在{Xb，Yb}上随机抽取n个特征训练决策树（或者回归树）
3.通过投票决定结果
3随机森林的优缺点：
优点：
随机森林几乎不需要输入准备。它们可以处理二进制特征，分类特征，数字特征而无需缩放。
随机森林执行隐式特征选择，并提供非常好的特征重要性指标。
随机森林训练非常快。
可以并行训练
缺点：训练出来的模型比较大，读取到内存较慢
对于有很多噪声的数据容易造成过拟合
3 sklearn中关于random forest的相关参数
n_estimators：树木个数。衡量分裂质量的功能。支持的标准是基尼杂质的“gini”和信息增益的“熵”。注意：此参数是特定于树的。
max_depth：树的最大深度。如果为None，则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split样本
min_samples_split：内部节点所需的最小样本数