使用Sklearn-train_test_split 划分数据集

最新推荐文章于 2024-06-27 21:41:21 发布

原创

最新推荐文章于 2024-06-27 21:41:21 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了如何使用sklearn.model_selection.train_test_split来划分数据集，包括其参数含义和实例演示。通过调整test_size和random_state，可以控制测试集的比例和随机性。当random_state固定时，相同代码会得到相同的数据划分；反之，不固定时每次运行可能得到不同结果。

使用Sklearn-train_test_split 划分数据集

使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集

1.使用形式为：

X_train, X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.2, random_state=0)

2.参数解释：

train_data：样本特征集

train_target：样本的标签集

test_size：样本占比，测试集占数据集的比重，如果是整数的话就是样本的数量

random_state：是随机数的种子。随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机

数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：

种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

X_train,y_train:构成了训练集

X_test,y_test：构成了测试集

3、实例

# 切分数据，不固定随机种子（random_state）时，同样的代码，得到的训练集数据不同。
x_train0, x_test0, y_train0, y_test0 = model_selection.train_test_split( x, y, test_size=0.33)
x_train1, x_test1, y_train1,

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。