sklearn train_test_split 中stratify参数解析

最新推荐文章于 2024-06-27 21:41:21 发布

原创最新推荐文章于 2024-06-27 21:41:21 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #python #机器学习

python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了在机器学习中使用`train_test_split`函数时，`stratify`参数的重要性。该参数确保训练集和测试集在目标变量分布上保持一致。例如，如果原始数据集中类别比例为2:8，那么在划分后的训练集和测试集中，这一比例也会得到保留。这对于保持模型评估的公正性和避免偏差至关重要。

from sklearn.model_selection import train_test_split
# 将'features'和'result'数据切分成训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(features, target, test_size = 0.2, random_state = 0,   stratify = target)

代码中stratify的作用：保持测试集与整个数据集里target的数据分类比例一致。

举个栗子：
整个数据集有1000行，target列的数据也是1000个，而且分两类：0和1，其中0有200个，1有800个，即数据分类的比例为2：8。

那么现在把整个数据split，因为test_size = 0.2，所以训练集分到800个数据，测试集分到200个数据。

重点来了
那么由于stratify = target，则训练集和测试集中的数据分类比例将与target一致，也是2：8，结果就是在训练集中，有160个0和640个1；测试集中有40个0和160个1。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csdnypp

关注关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

sklearn train_test_split用法详解

weixin_45804601的博客

10-11

1112

【代码】sklearn train_test_split用法详解。

【Digit Recognizer】train_test_split 中使用 stratify ,保持数据划分后训练集和测试集的类别分布与原数据集一致

weixin_45153772的博客

04-07

741

这在类别不平衡（Class Imbalance）的场景下尤为重要，例如手写数字识别（MNIST）中某些数字的样本可能较少（如数字。可以确保划分后的子集保留原始数据的类别比例，避免模型因训练集或测试集分布偏差而表现异常。可能无法严格分层（因无法拆分为训练集和测试集），此时会抛出警告或错误。如果某个类别的样本数过少（例如某类仅有1个样本），的类别分布进行分层抽样。

参与评论您还未登录，请先登录后发表或查看评论

sklearn中train_test_split里，参数stratify含义解析

weixin_45281949的博客

10-27

3万+

直接上代码： from sklearn.model_selection import train_test_split # 将'features'和'result'数据切分成训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(features, result, test_size = 0.2, random_state = 0, ...

train_test_split(X, y, stratify=y）

最新发布

11-23

- **[^3]：sklearn train_test_split中stratify参数解析** 包含具体代码示例，演示如何在实际项目中设置 `stratify=target`。 - **[^4]：scikit-learn数据集拆分与交叉验证** 扩展讨论 `stratify` 在交叉验证中...

sklearn.model_selection.train_test_split函数

weixin_49346755的博客

06-15

2136

函数说明 train_test_split函数用于将数据集细分为训练集和测试集。参数*arrays表示待划分的数据集，可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据。参数test_size如果为浮点数，则表示测试集占数据集的百分比；如果为整数，则表示测试集的数量。参数train_size如果为浮点数，则表示训练集占数据集的百分比；如果为整数，则表示训练集的数量。参数random_state表示随机数的种子，参数shuffle表示是否打乱数据。参数stratify是为了保持split前类的

sklearn.model_selection.train_test_split用法解析

liveshow021_jxb的博客

03-09

1084

一、API解析 sklearn.model_selection.train_test_split(*arrays,test_size=None,train_size=None,random_state=None,shuffle=True,stratify=None) 该函数核心功能是：将样本数组或者矩阵按随机的方式分成训练集和测试集。 *arrays：数据的整体样本，类型可以是lists，numpy arrays，scipy-sparse matrices，pandas datafra...

机器学习sklearn.model_selection.train_test_split函数使用

libie_lt的专栏

03-25

8355

splitting = train_test_split(*arrays,**options) 如： X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0, shuffle=False) 参数参数说明备注 splitting X_train list, length=2 * len(arrays) ...

Cross_validation.train_test_split 中 stratify这个参数的意义是什么？

weixin_30514745的博客

01-29

1249

比单独使用train_test_split来划分数据更严谨 stratify是为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下： training: 75个数据，其中60个属于A类，15个属于B类。 testi...

机器学习工具之交叉验证数据集自动划分train_test_split

yiyisunshine的博客

04-18

3593

机器学习工具之交叉验证数据集自动划分 1. 使用方式： from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split (train_data,train_lable,test_size=0.3,random_state=o,stratify=trai...

机器学习：训练集与测试集分割train_test_split

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

08-01

1万+

在使用机器学习训练模型算法的过程中，为提高模型的泛化能力、防止过拟合等目的，需要将整体数据划分为训练集和测试集两部分，训练集用于模型训练，测试集用于模型的验证。此时，使用train_test_split函数可便捷高效的实现数据训练集与测试集的划分。

使用train_test_split划分数据集

2301_77444219的博客

06-27

3716

是sklearn库中的一个函数，用于将数据集分割为训练集和测试集。

sklearn中的train_test_split函数

weixin_67609590的博客

05-09

1619

可选参数，用于进行分层抽样。传入标签数组，保证划分后的训练集和测试集中各类别样本比例与原始数据集相同。: 单个数组或元组，表示需要划分的数据集。如果传入多个数组，则必须保证每个数组的第一维大小相同。函数是机器学习中一个非常重要的函数，它可以将数据集划分为训练集和测试集。: 测试集的大小（占总数据集的比例）。: 训练集的大小（占总数据集的比例）。: 是否随机打乱数据。互补，即训练集的大小为。表示训练集的特征数据，表示测试集的特征数据，表示训练集的标签数据，表示测试集的标签数据。，即普通的随机划分。

sklearn函数：train_test_split（分割训练集和测试集）

daijingxin的博客

03-05

1924

函数的功能是分割训练集和测试集。

train_test_split(X, y, test_size=0.2, stratify=y)

weixin_43858465的博客

04-18

1万+

参数 stratify=y : 按照数据集中y的比例分配给train和test，使得train和test中各类别数据的比例与原数据集的比例一致。举例：原数据集中有100条数据，A类有80条，B类有20条，且前80条全为A类。那么我们在不指定stratify参数的情况下，切分出前80条的数据就全部为A类。所以我们要设置stratify=y来使得切分出的测试集与训练集中包含的类别为...

sklearn学习：train_test_split

ninnyyan的博客

06-04

1434

train_test_split 是sklearn中一个用来随机分割train，test数据集的工具 sklearn.model_selection.train_test_split(*arrays, **options)[source] 需要注意的参数包括， 1. test_size test_size的参数类型可能有多种：如果为float型，需要介于0.0到1.0之间，表示要分...

Understanding Clouds from Satellite Images语义分割比赛中train_test_split与stratify配合使用

微电子学与固体电子学-俞驰

11-11

857

用法来自:https://www.kaggle.com/mobassir/keras-efficientnetb2-for-classifying-cloud 数据集中每张图片可能包含1种云朵到4种云朵不等。比赛要求返回rle格式的submission.csv 其中数据集分割代码如下: train_imgs, val_imgs = train_test_split(t...