使用tf.data.Dataset.from_tensor_slices五步加载数据集

最新推荐文章于 2025-11-08 15:40:41 发布

原创最新推荐文章于 2025-11-08 15:40:41 发布 · 3.9w 阅读

301 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #深度学习 #数据加载 #tensorflow2

python 专栏收录该内容

6 篇文章

订阅专栏

博主记录了使用TF2加载MNIST数据集的过程。思路包括准备numpy数据、加载、打乱、预处理、设置值及循环迭代等步骤。代码方面提到one - hot编码及shuffle函数数值等问题，总结强调五个步骤重要，还有其他加载方法后续再谈，建议读API。

部署运行你感兴趣的模型镜像

前言:

最近在学习tf2
数据加载感觉蛮方便的
这里记录下使用 tf.data.Dataset.from_tensor_slices 进行加载数据集.
使用tf2做mnist（kaggle）的代码

思路

Step0: 准备要加载的numpy数据
Step1: 使用 tf.data.Dataset.from_tensor_slices() 函数进行加载
Step2: 使用 shuffle() 打乱数据
Step3: 使用 map() 函数进行预处理
Step4: 使用 batch() 函数设置 batch size 值
Step5: 根据需要使用 repeat() 设置是否循环迭代数据集

代码

import tensorflow as tf
from tensorflow import keras

def load_dataset():
	# Step0 准备数据集, 可以是自己动手丰衣足食, 也可以从 tf.keras.datasets 加载需要的数据集(获取到的是numpy数据) 
	# 这里以 mnist 为例
	(x, y), (x_test, y_test) = keras.datasets.mnist.load_data()
	
	# Step1 使用 tf.data.Dataset.from_tensor_slices 进行加载
	db_train = tf.data.Dataset.from_tensor_slices((x, y)）
	db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
	
	# Step2 打乱数据
	db_train.shuffle(1000)
	db_test.shuffle(1000)
	
	# Step3 预处理 (预处理函数在下面)
	db_train.map(preprocess)
	db_test.map(preprocess)

	# Step4 设置 batch size 一次喂入64个数据
	db_train.batch(64)
	db_test.batch(64)

	# Step5 设置迭代次数(迭代2次) test数据集不需要emmm
	db_train.repeat(2)

	return db_train, db_test

def preprocess(labels, images):
	'''
	最简单的预处理函数:
		转numpy为Tensor、分类问题需要处理label为one_hot编码、处理训练数据
	'''
	# 把numpy数据转为Tensor
	labels = tf.cast(labels, dtype=tf.int32)
	# labels 转为one_hot编码
	labels = tf.one_hot(labels, depth=10)
	# 顺手归一化
	images = tf.cast(images, dtype=tf.float32) / 255
	return labels, images

one_hot 编码: 小姐姐给你解释去 （我在使用自带的fit函数进行训练的时候，发现报错维度不正确，原来是不需要one_hot编码）
shuffle()函数的数值: 源码链接, 内容我贴图了

我找到一个比较好的解释: 简书真是好东西
我发现自己的数据使用tf.data.Dataset.from_tensor_slices（x, y）加载时，一定要x在前y在后。。。没仔细看函数说明，否则会导致bug的emmm
使用了该函数之后， fit的时候是不支持 validation_split 这个参数提供的功能的~

总结

五个步骤很重要比较简单的方式加载数据当然还有其他方法加载之后再说叭
此外, 建议读读api tf.data.Dataset 里好东西太多了~

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

23 条评论

Bai_DC 2022.05.09
这个代码写的有问题，传参有问题，而且没有接收数据
- rainweic回复Bai_DC 2022.06.15
  应该tf更新接口了吧当时是可以跑起来的直接copy过来的

fzywin 2021.12.06
test数据不应当打乱吧
- rainweic回复fzywin 2022.06.15
  确实不需要打乱
- weixin_45429392回复fzywin 2022.03.08
  是的，博主多此一举了

lemon_feeling 2021.06.30
tf.data.Dataset.from_tensor_slices(x,y),难道不是对应的x是data，y是label。请问一下这边的 # Step5 设置迭代次数(迭代2次) test数据集不需要emmm db_train.repeat(2) 这一段是什么意思吗？会产生什么样的效果吗？

构建的乐趣 2021.05.09
good

不堪de不堪 2020.12.23
返回的数据是什么啊？什么类型？怎么传入网络训练啊，搞了好久没懂

好好搞科研~_~ 2020.12.19
请问db_train这个数据怎么喂给网络训练呢，它里面包括图片和标签，怎么才能拆开来呢感谢博主分享，学到不少东西！
- 「已注销」回复好好搞科研~_~ 2021.12.08
  db_train[0]应该是图片，db_train[1]应该是标签。只是这样每次要feed数据需要每次重新调用该函数吗

Owen York 2020.05.18
博主，请问tf.data.Dataset里面的还有filter和prefetch函数都是什么用处呢？

超哥我在 2020.03.23
请问一下 tf.data.Dataset.from_tensor_slices可以三个参数吗，比如(x,y,z)。就是我多一个feature
- Duuu_du回复超哥我在 2020.04.29
  [reply]shanqin5540[/reply](x,y)是说数据是二维的，我看的别的博主说，这个方法会把第一个维度作切分的依据。就你的(x,y,z)的数据，处理一下应该是x个(y,z)的元素。例如，传入的是一个矩阵(100,2), tf.data.Dataset.from_tensor_slices就会切分它形状上的第一个维度，最后生成的dataset中一个含有100个元素，每个元素的形状是(2, )，即每个元素是矩阵的一行。——https://zhuanlan.zhihu.com/p/37106443

u011081450 2020.03.09
你的preprocess是label在前，image在后，所以你的tf.data.Dataset.from_tensor_slices应该是y在前

Shane Yozhao 2019.12.15
你一定是看了龙龙老师的课，才写的
- 飞侠-24回复lmw0320 2020.05.31
  [reply]lmw0320[/reply]B站
- rainweic回复lmw0320 2020.05.23
  免费的看tf官网吧
- lmw0320回复rainweic 2020.05.23
  [reply]rainweic[/reply]要交费的啊。。有没免费的链接。。
- rainweic回复lmw0320 2020.05.22
  搜TensorFlow2 新加坡国立大学的那个
- lmw0320回复rainweic 2020.05.22
  [reply]rainweic[/reply]直接搜的龙龙老师？？
- rainweic回复lmw0320 2020.05.22
  [reply]lmw0320[/reply]网易云课堂
- lmw0320回复rainweic 2020.05.18
  [reply]rainweic[/reply]可否给个链接。。。
- rainweic回复Shane Yozhao 2019.12.15
  [reply]yongxian_zhao[/reply] 哈哈哈有看过讲的很棒