划分数据集的方法

最新推荐文章于 2025-11-18 16:50:04 发布

原创

最新推荐文章于 2025-11-18 16:50:04 发布 · 6.2k 阅读

17 ·

CC 4.0 BY-SA版权

本文介绍了在机器学习中用于划分数据集的两种方法：train_split和ShuffleSplit。train_split主要参数包括test_size、train_size等，其中random_state控制重复性，stratify支持分层采样。ShuffleSplit提供了n_splits次数的随机划分，同样可设置test_size和random_state，适用于交叉验证。

train_split方法：
1）导入包：
from sklearn.model_selection import
train_test_split
2）函数介绍：
train_split(*arrays, test_size, train_size, random_state, shuffle, stratify)
3）参数介绍：
a. *arrays
b. test_size: 测试集占总数据集的比例，默认为0.25
c. train_size: 训练集占总数据集的比例，默认为None，表示总体数据集除去测试集的部分
d. random_state: （其他参数都相同时）只有设为1时，每次运行时划分的测试集与训练集都一样；设为0或不设置，每次划分的都不一样。
e. shuffle：boolean类型，默认为True，表示在切割数据集之前是否要打乱数据。当shuffle=False时，stratify必须为None。
f. stratify: 默认为None，当值不是None时，代表数据集会以一种分层的方式被切割。
ShuffleSplit方法：
1）导入包：
from sklearn.model_selection import ShuffleSplit
2）函数介绍: ShuffleSplit(n_splits=10,test_size=’default’, train_size=None, random_state=None)
3）参数介绍：
a. n_splits: 代表划分训练集、测试集的次数，默认为10
b. test_size: 测试集占总数据集的比例，默认为0.1
c. train_