-
train_split方法:
1) 导入包:
from sklearn.model_selection import
train_test_split
2)函数介绍:
train_split(*arrays, test_size, train_size, random_state, shuffle, stratify)
3)参数介绍:
a. *arrays
b. test_size: 测试集占总数据集的比例,默认为0.25
c. train_size: 训练集占总数据集的比例,默认为None,表示总体数据集除去测试集的部分
d. random_state: (其他参数都相同时)只有设为1时,每次运行时划分的测试集与训练集都一样;设为0或不设置,每次划分的都不一样。
e. shuffle:boolean类型,默认为True,表示在切割数据集之前是否要打乱数据。当shuffle=False时,stratify必须为None。
f. stratify: 默认为None,当值不是None时,代表数据集会以一种分层的方式被切割。 -
ShuffleSplit方法:
1)导入包:
from sklearn.model_selection import ShuffleSplit
2)函数介绍: ShuffleSplit(n_splits=10,test_size=’default’, train_size=None, random_state=None)
3)参数介绍:
a. n_splits: 代表划分训练集、测试集的次数,默认为10
b. test_size: 测试集占总数据集的比例,默认为0.1
c. train_
划分数据集的方法
本文介绍了在机器学习中用于划分数据集的两种方法:train_split和ShuffleSplit。train_split主要参数包括test_size、train_size等,其中random_state控制重复性,stratify支持分层采样。ShuffleSplit提供了n_splits次数的随机划分,同样可设置test_size和random_state,适用于交叉验证。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



