使用StratifiedShuffleSplit()函数划分数据

最新推荐文章于 2025-12-14 11:46:13 发布

原创最新推荐文章于 2025-12-14 11:46:13 发布 · 302 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python

数据科学同时被 2 个专栏收录

2 篇文章

订阅专栏

机器学习

2 篇文章

订阅专栏

在学习kaggle上的titanic比赛时，学习到了StratifiedShuffleSplit函数，用于分层抽样分割数据的交叉验证迭代器，适用于分类任务中保持类别比例。不同于train_test_split这个随机打乱分割数据集。

1. StratifiedShuffleSplit()函数

from sklearn.model_selection import StratifiedShuffleSplit
sss = StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=None)

n_splits

作用：控制分割迭代次数（默认为10）。
示例：n_splits=5 表示生成5个训练-测试集对。

test_size

作用：指定测试集比例或样本数。
类型：float（比例）或 int（绝对数量），默认为0.1。
示例：test_size=0.2 表示测试集占20%。

train_size

作用：指定训练集比例或样本数（与 test_size 互补）。
类型：类似 test_size，默认自动补全剩余部分。

random_state

作用：随机种子，确保结果可复现。
示例：random_state=42 固定随机性。

2.使用Split()函数分割数据

for train_index, test_index in sss.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

X: 特征数据 (array-like, shape (n_samples, n_features))
y: 目标变量 (array-like, shape (n_samples,))，用于分层抽样
groups (可选): 用于分组交叉验证的组标识

划分策略：先根据 y 的类别分布计算分层比例，对每个类别单独进行随机打乱，按照指定的 test_size/train_size 划分数据，确保每个划分都保持原始类别比例，最后返回划分后的索引。