5.sklearn之转换器(划分训练集和测试集、以及标准化、归一化数据会用transform,独热编码也会用到)

1. 什么是转换器?

这就是一个名字,不要被这个名字吓一跳。很简单,就是将数据,转换一种形态。比如,将数据标准化就是一种转换,将数据分为训练集和测试集也是一种转换。

2. 测试集和训练集

2.1 训练集 、测试集、验证集

在这里插入图片描述
10折比较常用,K可以取任意值。
这篇就说一下训练集、测试集、验证集。
至于K折交叉验证的使用范围:数据量少的时候可以使用该方法拆分数据;也可以使用该方法计算K折预测误差,寻找最优参数或者最优模型。后面的文章会写,本文不介绍。

2.2 拆分训练集测试集有个问题

拆分的时候,数据并不一定是平衡的。就是说0,1分布不一定就会被均匀的抽样出来。不仅跟抽样方式有关,更加跟原样本的分布有关。具体解决方法是采用SMOTE算法对非平衡数据抽样。本文不做介绍,后面的博客会写。

2.3 代码

先来看看参数

from sklearn.model_selection import train_test_split
help(train_test_split)
train_test_split(*arrays, **options)
参数名称 说明
arrays 接收一个或多个数据集。代表需要划分的数据集。若为分类回归,则分别传入数据和标签;若为聚类,则传入数据。
test_size 接收float、in
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值