Python/Keras如何将给定的数据集打乱

最新推荐文章于 2025-11-09 17:46:58 发布

原创最新推荐文章于 2025-11-09 17:46:58 发布 · 1.5w 阅读

18 ·

CC 4.0 BY-SA版权

python 学习专栏收录该内容

23 篇文章

订阅专栏

本文介绍了如何在Python中对数据集进行随机化处理，包括获取数据集的索引、随机打乱索引顺序以及使用新索引重新排列数据集和标签。详细步骤确保了数据集的随机性和数据增强的可能性。

给定数据集data，数据集对应的标签label

index = [i for i in range(len(data))]  
random.shuffle(index) 
data = data[index]
label = label[index]

（1）首先，获得数据集的所有index，其实就是0,1,2,....,num-1(这里的num是数据集中含有的examples的个数，注意，python的索引是从0开始的，所以，第一个元素索引为0，最后一个元素索引为num-1)

【数据集中函数的样本个数num=sampNum = len(data)】

index = [i for i in range(len(data))]

（2）将索引随机打乱顺序

random.shuffle(index)

（3）按照新的乱序索引得到新的乱序后的data和label

data = data[index]
label = label[index]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tina_ttl

关注关注

6
点赞
踩
18

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用 Keras 在 Python 中使用 LSTM 递归神经网络进行时间序列预测

weixin_62135607的博客

08-04

3342

使用 Keras 在 Python 中使用 LSTM 递归神经网络进行时间序列预测

在Keras中利用np.random.shuffle()打乱数据集实例

12-17

我就废话不多说了，大家还是直接看代码吧~ from numpy as np index=np.arange(2000) np.random.shuffle(index) print(index[0:20]) X_train=X_train[index,:,:,:]#X_train是训练集，y_train是训练标签 y_train=y_train[index] 补充知识：Keras中shuffle和validation_split的顺序模型的fit函数有两个参数，shuffle用于将数据打乱，validation_split用于在没有提供验证集的时候，按一定比例从训练集中取出一部分作为验证集

4 条评论您还未登录，请先登录后发表或查看评论

1 条评论

weixin_44805413 2019.07.07
太强了。之前找了一个错误的打乱方式，卡了我好久，现在才找到一个对的。感谢博主。

evillist 2018.01.22
赞

元气少女缘结神 2016.07.18
我之前有用caffe做cifar10数据集但是用来做自己的数据 caffe要求leveldb或lmdb格式我卡在这个格式转换这里。。。有人说keras比caffe简易你有用keras做自己的数据吗

元气少女缘结神 2016.07.18
请问你有用Keras用来做自己的数据吗而不是网上下的那些数据集比如我的特征矩阵是200X1000 样本个数200 每个样本的特征是1000维对应有200个标签你有用Keras来对类似这样的特征矩阵来分类吗

Python列表打乱方法总结

热门推荐

Yan456jie的专栏

08-01

1万+

取 shuffle 的过程其实可看做从全排列中随机选择一个的过程。稍微比较麻烦的是实现特征向量与类别标签的同步shuffle。如果这里数据集既包含特征向量又包括标签值，可直接调用np.random.shuffle()方法： >>> np.random.shuffle(training_data) >>> X = training_data[:, :-1] >>> y = tr

180304 Keras+Sklearn打乱数据顺序 and 按比例分割训练+测试数据

专注机器学习之路

03-04

5692

打乱数据顺序 # shufle from sklearn.utils import shuffle b_train,b_label = shuffle(b_train,b_label) 按比例将数据分割成训练集+测试集 # split the original training data into two parts: training data and validation data # this

python cnn代码详解 keras_Textcnn多分类（keras实现）示例详细信息,textcnn,实例,详解...

weixin_39884074的博客

01-28

693

这是一个非常经典的代码，我增加了一定的注释和保存模型的代码使用的语料库和数据集都是网站公开数据(百度直接搜索名字都能搜到，下面提供下载地址)from __future__ import print_functionimport osimport sysimport numpy as npfrom keras.preprocessing.text import Tokenizerfrom keras...

Python 深度学习--学习笔记（十五）

yuan_1520的博客

08-07

4117

温度预测问题今天我们将使用一个天气时间序列数据集，它由德国耶拿的马克思 • 普朗克生物地球化学研究所的气象站记录。目的是给定一些数据，预测24小时之后的气温。首先，先在https://s3.amazonaws.com/kerasdatasets/jena_climate_2009_2016.csv.zip 下载数据集。查看数据 import os data_dir = 'C:\\Us...

Keras神经网络的学习与使用（4）-数据增强

weixin_44297729的博客

11-25

1262

数据增强数据增强的作用数据增强的概述Keras实现数据增强自己实现数据增强数据增强的作用深度学习有3个核心要素，分别是：优秀的算法设计高性能的计算能力大数据因此在我们拥有优秀的算法设计和高性能的计算能力的同时，我们也需要大量的高质量数据。但是，对于个人，学校团队甚至普通的工程师团队来说，数据的搜集能力都是十分有限的。缺乏大量高质量的训练样本，便难以训练处一个具有很好泛化能力的模型...

python-按照相同的顺序打乱

ltochange的博客

04-23

796

import numpy as np a = [1, 2, 3, 4, 5, 6] b = [1, 2, 3, 4, 5, 6] index = np.arange(len(a)) np.random.shuffle(index) print(index) a = np.array(a)[index] b = np.array(b)[index] print(a) print(b)

python对训练数据集shuffle(打乱)的一些方式

这些个事儿

10-22

1万+

1.通过数组来shuffle image_list=[] # list of images label_list=[] # list of labels temp = np.array([image_list, label_list]) temp = temp.transpose() np.random.shuffle(temp) images = ...

python中将两组数据放在一起按照某一固定顺序shuffle

u014180553的博客

11-27

6702

有的时候需要将两组数据，比如特征和标签放在一起随机打乱，但是又想记录这种打乱的顺序，那么该怎么做呢？下面是一个很好的方法：b = [1, 2,3, 4, 5,6 , 7,8 ,9] a = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h','i'] c = list(zip(a, b)) print(c) random.Random(100).shuffle(c)

python对数据集进行排序_Python机器学习——如何shuffle一个数据集（ndarray类型）...

weixin_32494473的博客

01-29

693

取 shuffle 的过程其实可看做从全排列中随机选择一个的过程。稍微比较麻烦的是实现特征向量与类别标签的同步shuffle。如果这里数据集既包含特征向量又包括标签值，可直接调用np.random.shuffle()方法：>>> np.random.shuffle(training_data)>>> X = training_data[:, :-1]>&...

python中中将数据集打乱_在Keras中利用np.random.shuffle()打乱数据集实例

weixin_42099151的博客

12-23

2284

我就废话不多说了，大家还是直接看代码吧~?补充知识：Keras中shuffle和validation_split的顺序模型的fit函数有两个参数，shuffle用于将数据打乱，validation_split用于在没有提供验证集的时候，按一定比例从训练集中取出一部分作为验证集这里有个陷阱是，程序是先执行validation_split，再执行shuffle的，所以会出现这种情况：假如你的训练集是有...

python shuffle 函数

liangjiubujiu的博客

03-29

1922

shuffle() 方法将序列的所有元素随机排序。下面是语法:1 import random 2 3 random.shuffle (lst )lst可以是序列或者元组； 1 >>> import random; 2 >>> indexList=[1,2,4,5,8,6]; 3 >>> indexList 4 [1, 2, 4, 5, ...

【深度学习】打乱数据及keras自定义generator

zjn-ai的博客

01-23

5950

一、打乱数据在深度学习中，打乱数据是很重要的。比如，训练集、验证集和测试集需要来自同一分布，所以要打乱数据集再分离，这样就能保证训练集、验证集和测试集的数据分布都是相同的。再比如，制作minibatch的时候，每经过一次epoch都要打乱一次数据集，使每次输入的minibatch分布都不相同，可见打乱数据的重要性。假如你的内存能装下整个数据集那么，就可以这样： import numpy...

python数据集标签_对python打乱数据集中X,y标签对的方法详解

weixin_39867594的博客

12-17

755

今天踩过的两个小坑：一.用random的shuffle打乱数据集中的数据-标签对index=[i for i in range(len(X_batch))]# print(type(index))index=random.shuffle(index)结果shuffle完以后index变成None了，看了下api，这样说明的：这个函数如果返回值，就返回None，所以用index=balabala就把...

svr多变量输入时序数据预测python

02-28

在开始之前，确保准备好用于训练的数据集，并将其转换成适合 LSTM 输入的形式： ```python import numpy as np from tensorflow.keras.models import Sequential from tensorflow.keras.layers import LSTM, Dense ...