随机森林-参数设置及调优

最新推荐文章于 2025-11-04 08:54:20 发布

原创最新推荐文章于 2025-11-04 08:54:20 发布 · 2.3w 阅读

165 ·

CC 4.0 BY-SA版权

集成学习专栏收录该内容

5 篇文章

订阅专栏

本文详细解析了随机森林分类器的主要参数，包括n_estimators、criterion、max_features等，并介绍了如何使用GridSearchCV进行参数调优，以提升模型性能。

n_estimators：

森林中数的个数。
这个属性是典型的模型表现与模型效率成反比的影响因子，即便如此，你还是应该尽可能提高这个数字，以让你的模型更准确更稳定。

criterion ：

度量分裂的标准。可选值：“mse”，均方差（mean squared error）；“mae”，平均绝对值误差（mean absolute error）
支持的标准是基尼杂质的“gini（基尼）”和信息增益的“entropy（熵）”。注意：此参数是特定于树的。

max_features ：

寻找最佳分裂点时考虑的特征数目。可选值，int（具体的数目），float（数目的百分比），string（“auto”， “sqrt”，“log2”）.
这一属性是对单个树来设置的，通常来讲，这个值越大单棵树可以考虑的属性越多，则模型的表现就越好。但是这也不是肯定的，不过有一点是肯定的，增加这个值会导致算法运行速度变慢，所以需要我们考虑去达到一个平衡。

max_depth :

integer或者None。树的最大深度，如果None，节点扩展直到所有叶子是纯的或者所有叶子节点包含的样例数小于min_samples_split

min_samples_split ：分裂内部节点需要的最少样例数。int(具体数目),float(数目的百分比)

min_samples_leaf ：叶子节点上应有的最少样例数。int(具体数目),float(数目的百分比)。
更少的节点数使得模型更容易遭受noise data的影响，我通常设置这个值大于50，但是你需要寻找最适合你的数值。

min_weight_fraction_leaf ：

max_leaf_nodes ：以”最优优先方式”(best-first fashion),最优节点定义为:纯度的相对减少.如果None则不限制叶子节点个数;[float]
min_impurity_split : 树增长提前结束的阈值.对于当前节点,大于这个阈值将分裂,否则就看做叶子节点; [float]
min_impurity_decrease ：一个阈值,表示一个节点分裂的条件是:如果这次分裂纯度的减少大于等于这这个值.
bootstrap ：构建数是不是采用有放回样本的方式(bootstrap samples); [True/False]
oob_score ：交叉验证相关的属性。
n_jobs ：设定fit和predict阶段并列执行的任务个数,如果设置为-1表示并行执行的任务数等于计算级核数; [integer, optional (default=1)]
random_state ：如果是int数值表示它就是随机数产生器的种子.如果指定RandomState实例,它就是随机产生器的种子.如果是None,随机数产生器是np.random所用的RandomState实例; [int, RandomState instance or None, optional (default=None)]
verbose ：控制构建数过程的冗长度; [int, optional (default=0)]
warm_start ：当设置为True,重新使用之前的结构去拟合样例并且加入更多的估计器(estimators,在这里就是随机树)到组合器中; [True/False]
class_weight: “banlanced”模式是根据y标签值自动调整权值与输入数据的类频率成反比,计算公式是:n_samples / (n_classes np.bincount(y)).“balanced_subsample”模式的与”balanced模式相同,只不过在每一次树增长过程中权值的计算是根据有放回样本的.

2、调优神器，遍历调优：

sklearn中的神器:GridSearcherCV(),它使用交叉验证的方式,对某一分类器,你制定想要调参的名称和数值,作为一个字典传入进这个函数,然后它就会告诉你最佳的参数组合.(其实就是for for for都试试).


from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
#准备训练数据和y值
X_train, y_train = ...
#初步定义分类器
rfc = RandomForestClassifier(max_depth=2, random_state=0)
#需要选择的参数名称一起后选值
tuned_parameter = [{'min_samples_leaf':[1,2,3,4], 'n_estimators':[50,100,200]}]
#神器出场,cv设置交叉验证
clf = GridSearchCV(estimator=rfc,param_grid=tuned_parameters, cv=5, n_jobs=1)
#拟合训练集
clf.fit(X_train, y_train)
print('Best parameters:')
pritn(clf.best_params_)

您可能感兴趣的与本文相关内容