基于XGBoost和随机森林的模型评估与选择的方法思路

本文通过在鸢尾花卉数据集上应用XGBoost和随机森林算法,并使用交叉验证和均方误差评估模型,最终选择了XGBoost作为最优模型。

在现实任务中,面对繁花似锦的机器学习算法可供选择。为了使模型的泛化能力更好,在数据预处理以及特征工程完毕后,应该通过对比分析选择一种最优的算法模型作为最终的选择。具体的思路是,首先列举几种想到的常规使用且效果较好的算法,然后分别在训练集以及测试集上使用不同的评估指标进行评估,最终确定效果最好的算法模型。本文用鸢尾花卉数据集,以XGBoost和随机森林两个算法为例,进行评估选择,具体步骤如下所示。

#导入所需要的库
import numpy as np
import xgboost as xgb
from sklearn.ensemble import RandomForestClassifier as rf
from sklearn.model_selection import  KFold, train_test_split
from sklearn.metrics import confusion_matrix, mean_squared_error
from sklearn.datasets import load_iris

#实例化数据集
iris = load_iris()
y = iris['target']
x = iris['data']

#训练集测试集划分
train_X, test_X, train_y, test_y = train_test_split(x, y, test_size=0.2, random_state=1)

#实例化k折交叉验证
kf = KFold(n_splits=5, shuffle=True, random_state=1)

#使用xgboost在训练集上做交叉验证
xgb_model_list = []
xgb_mse_list = []
for train_index, test_index 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值