Bagging(袋装法)
- 又称自主聚集(bootstrap aggregating)是一种根据均匀概率分布从数据集中重复抽样(有放回)的技术。
- 新数据可能有重复的值,而原始数据集中的某些样本可能根本没有出现在新数据集中
- 降低方差,提高模型整体的稳定性
- max_features 最多用多少特征进行分支,可以控制深度
min_samples_split 一个叶子最少样本数
import matplotlib.pyplot as plt
import matplotlib
#一颗决策树
from sklearn.tree import DecisionTreeClassifier
#集成森林
from sklearn.ensemble import RandomForestClassifier
#导入红酒数据
from sklearn.datasets import load_wine
wine = load_wine()
print(wine.data)
print(wine.target)
切分训练集和测试集
from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)
#一棵树
clf = DecisionTreeClassifier(random_state=0)
clf = clf.fit(Xtrain,Ytrain)
#森林
rfc=RandomForestClass