接上篇:
随机森林的思想
1 为什么会产生随机森林
解决决策树的过拟合问题。
2 随机森林的产生方法
给定一个有n个样本的训练集{X,Y},
for b=1,…,B:
1.从X中有放回的采样n个样本,组成集合{Xb,Yb};
2.在{Xb,Yb}上随机抽取n个特征训练决策树(或者回归树)
3.通过投票决定结果
3随机森林的优缺点:
优点:
随机森林几乎不需要输入准备。它们可以处理二进制特征,分类特征,数字特征而无需缩放。
随机森林执行隐式特征选择,并提供非常好的特征重要性指标。
随机森林训练非常快。
可以并行训练
缺点:训练出来的模型比较大,读取到内存较慢
对于有很多噪声的数据容易造成过拟合
3 sklearn中 关于random forest的相关参数
n_estimators:树木个数。衡量分裂质量的功能。支持的标准是基尼杂质的“gini”和信息增益的“熵”。注意:此参数是特定于树的。
max_depth:树的最大深度。如果为None,则扩展节点直到所有叶子都是纯的或直到所有叶子包含少于min_samples_split样本
min_samples_split:内部节点所需的最小样本数