bagging + 决策树 = 随机森林
随机的含义:双随机,数据样本随机选择,特征随机选择。
随机森林模型既能进行分类分析,又能进行回归分析。
对应的模型分别为随机森林分类模型(RandomForestClassifier)和随机森林回归模型(RandomForestRegressor)。
随机森林分类模型的弱学习器是分类决策树模型,随机森林回归模型的弱学习器则是回归决策树模型。
# 导入随机森林分类器
from sklearn.ensemble import RandomForestClassifier
# 定义一组示例输入数据,这里使用列表表示,每个子列表代表一个样本的特征值
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
# 定义对应的示例输出数据,这里使用列表表示,每个元素代表对应样本的类别标签
y = [0, 0, 0, 1, 1]
# 初始化随机森林分类器模型,设置估计器数量为10,随机种子为123以保证结果的可重复性
model = RandomForestClassifier(n_estimators=10, random_state=123)
# 使用输入输出数据对模型进行训练
model.fit(X, y)
# 使用训练好的模型对新样本进行预测,并打印预测结果
print(model.predict([[5, 5]]))