Bagging随机森林

最新推荐文章于 2025-03-27 00:15:22 发布

脱线YOYO

最新推荐文章于 2025-03-27 00:15:22 发布

阅读量536

点赞数

分类专栏：数据分析和机器学习文章标签：数据分析

本文链接：https://blog.youkuaiyun.com/weixin_46021446/article/details/115180134

版权

本文探讨了Bagging（袋装法）的原理，如何通过有放回抽样降低模型方差，增强稳定性。介绍了随机森林在与决策树的交叉验证效果对比，以及`n_estimators`参数的学习曲线。同时，提到了oob_score（袋外得分），它是评估模型性能的一种方式，尤其是在数据量有限时，有效利用未参与建模的数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bagging（袋装法）

又称自主聚集（bootstrap aggregating）是一种根据均匀概率分布从数据集中重复抽样（有放回）的技术。
新数据可能有重复的值，而原始数据集中的某些样本可能根本没有出现在新数据集中
降低方差，提高模型整体的稳定性
max_features 最多用多少特征进行分支，可以控制深度

min_samples_split 一个叶子最少样本数

import matplotlib.pyplot as plt
import matplotlib


#一颗决策树
from sklearn.tree import DecisionTreeClassifier

#集成森林
from sklearn.ensemble import RandomForestClassifier

#导入红酒数据
from sklearn.datasets import load_wine

wine = load_wine()

print(wine.data)
print(wine.target)

切分训练集和测试集

from sklearn.model_selection import train_test_split

Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)


 #一棵树
clf = DecisionTreeClassifier(random_state=0)
clf = clf.fit(Xtrain,Ytrain)
#森林
rfc=RandomForestClass