使用随机森林分类对二手房数据集进行分类

原创

已于 2024-04-09 11:28:15 修改 · 408 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#随机森林 #分类 #算法 #sklearn #机器学习

于 2024-04-09 11:25:05 首次发布

本文介绍了sklearn库中RandomForestClassifier类的构造函数参数，包括树的数量、特征选择标准、最大深度等。重点讨论了随机森林分类的错误率与其内部两棵树的相关性和每棵树的分类能力的关系。

在 sklearn 的 ensemble（集成学习）模块中，RandomForestClassifier 类用于实现随机森林分类。该类构造函数的语法如下：
sklearn.ensemble.RandomForestClassifier(n_estimators=’warn’,criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)
其中，重要参数的含义如下：

n_estimators：随机森林里树的数量。

criterion：特征属性判别力的评价标准，取值是 gini（默认值）或 entropy。

max_features：允许单棵决策树使用特征的最大数量，取值是 auto/None（不限制）或 sqrt（总特征数的平方根）或数值（总特征的 20%）。

max_depth：树的最大深度，-1 表示完全生长（不限制）。

min_samples_split：拆分内部节点所需要的最小样本数，默认值为 2。

min_samples_leaf：叶子节点所需要的最小样本数。

oob_score：是否使用包外样本（即模型抽样时没有选择的数据）来估计泛化精度。

n_jobs：模型拟合和预测时并行运行的作业数，默认值为 None，表示不使用并行运算，-1 表示使用所有的处理器进行并行运算。

# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier  # 引入随机森林分类模块

# 转换数据
X ,Y= [],[]  # 读取数据
fr

最低0.47元/天解锁文章