39、利用 TensorFlow 高效加载和预处理数据

最新推荐文章于 2025-10-13 12:00:50 发布

脑补型产品

最新推荐文章于 2025-10-13 12:00:50 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精华解读文章标签： TensorFlow 数据预处理 tf.data

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154944037

机器学习实战精华解读专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用 TensorFlow 高效加载和预处理数据

1. 链式转换数据集

一旦拥有数据集，就可以通过调用其转换方法对其应用各种转换。每个方法都会返回一个新的数据集，因此可以像这样链式调用转换方法：

dataset = dataset.repeat(3).batch(7)
for item in dataset:
    print(item)

上述代码先调用 repeat(3) 方法，返回一个将原数据集重复三次的新数据集，且不会在内存中复制三次所有数据。若不传入参数调用 repeat() 方法，新数据集将无限重复源数据集，此时迭代数据集的代码需自行决定何时停止。接着调用 batch(7) 方法，创建一个将前一个数据集的项按每七个一组进行分组的新数据集。运行结果如下：

tf.Tensor([0 1 2 3 4 5 6], shape=(7,), dtype=int32)
tf.Tensor([7 8 9 0 1 2 3], shape=(7,), dtype=int32)
tf.Tensor([4 5 6 7 8 9 0], shape=(7,), dtype=int32)
tf.Tensor([1 2 3 4 5 6 7], shape=(7,), dtype=int32)
tf.Tensor([8 9], shape=(2,), dtype=int32)

可以看到， batch() 方法输出了一个大小为 2 而非