文章目录
1. 什么是转换器?
这就是一个名字,不要被这个名字吓一跳。很简单,就是将数据,转换一种形态。比如,将数据标准化就是一种转换,将数据分为训练集和测试集也是一种转换。
2. 测试集和训练集
2.1 训练集 、测试集、验证集
10折比较常用,K可以取任意值。
这篇就说一下训练集、测试集、验证集。
至于K折交叉验证的使用范围:数据量少的时候可以使用该方法拆分数据;也可以使用该方法计算K折预测误差,寻找最优参数或者最优模型。后面的文章会写,本文不介绍。
2.2 拆分训练集测试集有个问题
拆分的时候,数据并不一定是平衡的。就是说0,1分布不一定就会被均匀的抽样出来。不仅跟抽样方式有关,更加跟原样本的分布有关。具体解决方法是采用SMOTE算法对非平衡数据抽样。本文不做介绍,后面的博客会写。
2.3 代码
先来看看参数
from sklearn.model_selection import train_test_split
help(train_test_split)
train_test_split(*arrays, **options)
参数名称 | 说明 |
---|---|
arrays | 接收一个或多个数据集。代表需要划分的数据集。若为分类回归,则分别传入数据和标签;若为聚类,则传入数据。 |
test_size | 接收float、in |