集成学习:结合不同模型提升性能
1. 多数投票原则进行预测
1.1 数据准备
为了测试多数投票分类器(MajorityVoteClassifier),我们选择使用鸢尾花(Iris)数据集。只选取萼片宽度和花瓣长度这两个特征,以增加分类任务的挑战性。同时,仅对鸢尾花中的变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)这两个类别进行分类,后续会计算ROC AUC。代码如下:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
iris = datasets.load_iris()
X, y = iris.data[50:, [1, 2]], iris.target[50:]
le = LabelEncoder()
y = le.fit_transform(y)
1.2 数据集划分
将鸢尾花数据集按50%训练集和50%测试集进行划分:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=1, stratify=y)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



