python交叉验证(cross_validation.train_test_split)

本文详细介绍了如何使用交叉验证方法将数据集划分为训练集和测试集,以评估机器学习模型的性能。通过随机拆分数据,确保了模型的泛化能力,避免过拟合现象。关键参数如test_size和random_state的作用也被深入解析。

二、 将数据分为训练,测试集进行交叉验证
使用训练集进行训练,在用测试集验证训练结果是否正确,通过这个方法验证数据
X_train,X_test,y_train,y_test=cross_validation.train_test_split(train_data,train_target,test_size=0.4, random_state=0)
避免数据拟合
#该方法将原始数据打乱得到新顺序的训练数据和测试数据(将数组或矩阵随机拆分成训练子集和测试子集)
X_train,y_train:得到的训练数据。
X_test, y_test:得到的测试数据。
训练集是用来训练算法(算法进行分类用的数据),而测试集是用来验证算法的
train_data:被划分的样本特征集,
train_target:被划分的样本标签(该数据每一个都与与train_data中数据存在对应)
test_size:如果是浮点数,在0-1之间,表示样本占比;如果是整数的话就是样本的数量如0.7表示百分之30的数据用于做训练集百分之70的数据用来测试集
random_state:是随机数的种子。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样(该算法可以将数据打乱然后取出test_size的数据进行训练,为0时打乱数据,默认为0,为1不打乱)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值