Random Forest(sklearn参数详解)

本文介绍了如何使用Python的sklearn库中的RandomForestClassifier来构建随机森林模型。详细解析了模型参数,包括决策树数量、采样方式及并行处理等,并提供了关键的方法如predict_proba与predict等的说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇不是介绍RF的,关于RF网上有很多通俗易懂的解释
西瓜书与统计学习方法等很多教材中的解释也都足够

本篇仅针对如何使用sklearn中的RandomForestClassifier作记录

代码案例:

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_depth=None,    
min_samples_split=2, min_samples_leaf=1,    
min_weight_fraction_leaf=0.0,    
max_features=’auto’,    
max_leaf_nodes=None, bootstrap=True,    
oob_score=False, n_jobs=1, ran-dom_state=None, verbose=0,    
warm_start=False, class_weight=None)  

参数解析:

其中关于决策树的参数:

criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来选择最合适的节点。

splitter: ”best” or “random”(default=”best”)随机选择属性还是选择不纯度最大的属性,建议用默认。

max_features: 选择最适属性时划分的特征不能超过此值。

当为整数时,即最大特征数;当为小数时,训练集特征数*小数;

if “auto”, then max_features=sqrt(n_features).

If “sqrt”, thenmax_features=sqrt(n_features).

If “log2”, thenmax_features=log2(n_features).

If None, then max_features=n_features.

max_depth: (default=None)设置树的最大深度,默认为None,这样建树时,会使每一个叶节点只有一个类别,或是达到min_samples_split。

min_samples_split:根据属性划分节点时,每个划分最少的样本数。

min_samples_leaf:叶子节点最少的样本数。

max_leaf_nodes: (default=None)叶子树的最大样本数。

min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值

verbose:(default=0) 是否显示任务进程

关于随机森林特有的参数:

n_estimators=10:决策树的个数,越多越好,但是性能就会越差,至少100左右(具体数字忘记从哪里来的了)可以达到可接受的性能和误差率。 

bootstrap=True是否有放回的采样。  

oob_score=Falseoob(out of band,带外)数据,即:在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练,我们知道可以用cross validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证。性能消耗小,但是效果不错。  

n_jobs=1并行job个数。这个在ensemble算法中非常重要,尤其是bagging(而非boosting,因为boosting的每次迭代之间有影响,所以很难进行并行化),因为可以并行从而提高性能。1=不并行;n:n个并行;-1:CPU有多少core,就启动多少job

warm_start=False热启动,决定是否使用上次调用该类的结果然后增加新的。  

class_weight=None各个label的权重。  


进行预测可以有几种形式:

predict_proba(x):给出带有概率值的结果。每个点在所有label的概率和为1.  

predict(x):直接给出预测结果。内部还是调用的predict_proba(),根据概率的结果看哪个类型的预测值最高就是哪个类型。  

predict_log_proba(x):和predict_proba基本上一样,只是把结果给做了log()处理。  

转载自:博客 https://blog.youkuaiyun.com/u012102306/article/details/52228516
### 关于Scikit-Learn中19种常用机器学习算法的参数详解 在Scikit-Learn库中确实提供了多种常用的机器学习模型,每一种都有其特定的应用场景以及相应的超参数设置。虽然具体到19种这一说法可能并不常见,但可以列举一些广泛使用的分类器和支持回归分析的方法,并给出部分典型代表及其重要参数解释。 #### 1. 线性回归 (Linear Regression) 线性回归是最基础的一种预测建模技术之一,在`scikit-learn`中的实现非常简单[^2]: ```python from sklearn.linear_model import LinearRegression regressor = LinearRegression() ``` 主要调整项包括: - `fit_intercept`: 是否计算截距,默认为True。 - `normalize`: 如果设为True,则X将在估计之前被标准化,此选项已被弃用并计划在未来版本移除。 #### 2. 支持向量机(SVM) 支持向量机用于解决二类或多类别分类问题,也可以处理回归任务。对于SVC来说,几个重要的参数有: - `C`: 正则化强度系数;越小表示更强正则化。 - `kernel`: 核函数类型('linear', 'poly', 'rbf', 'sigmoid')。 - `gamma`: RBF核函数特有参数,控制决策边界曲率程度。 #### 3. 随机森林(Random Forest Classifier/Regressor) 随机森林是一种集成方法,它通过构建多个决策树来进行投票表决来提高泛化能力。关键配置如下所示[^4]: ```python from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(n_estimators=100, max_depth=None, min_samples_split=2, random_state=0) ``` 其中, - `n_estimators`: 构造多少棵子树; - `max_features`: 寻找最佳分割时考虑的最大特征数; - `min_samples_leaf`: 叶节点所需最小样本数量。 由于篇幅所限,这里仅展示了三种常见的算法描述。实际上,Scikit-Learn还涵盖了诸如K近邻(KNN),朴素贝叶斯(Naive Bayes),梯度提升(Gradient Boosting Machines)等多种其他类型的监督和无监督学习工具。每个模型都有自己独特的属性集,建议查阅官方文档获取最全面的信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值