随机森林多分类与K-means聚类分析
随机森林多分类
在多分类任务中,随机森林是一种强大的工具。之前我们已经了解了如何调整随机森林的一些重要超参数,如 n_estimators 、 max_depth 和 min_samples_leaf 。现在,我们将重点介绍另一个极其重要的超参数: max_features 。
随机森林的随机性原理
随机森林通过构建多棵树并取平均值来进行预测。其“随机”体现在两个方面:
- 数据随机采样 :每棵树会随机看到不同比例的训练数据,例如一棵树可能看到60%的训练数据,另一棵看到70%,这样可以使树之间差异较大,减少偏差。
- 特征随机采样 :每棵树只能看到部分特征,而不是全部特征,这就是 max_features 超参数的作用。
在 sklearn 中, max_features 可以有以下几种取值方式:
- 整数 :指定最大特征数量。
- 比例 :以允许特征的百分比表示。
- sqrt函数 :默认值,使用特征数量的平方根作为最大值。例如,对于有25个特征的数据集,其平方根为5,这就是 max_features 的值。
-
超级会员免费看
订阅专栏 解锁全文
9697

被折叠的 条评论
为什么被折叠?



