42、利用 TensorFlow 高效加载和预处理数据

最新推荐文章于 2025-11-03 16:35:10 发布

五行擒拿术

最新推荐文章于 2025-11-03 16:35:10 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：动手学AI：从零到精通文章标签： TensorFlow tf.data API 数据预处理

本文链接：https://blog.youkuaiyun.com/table/article/details/152288581

动手学AI：从零到精通专栏收录该内容

77 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用 TensorFlow 高效加载和预处理数据

在机器学习和深度学习中，数据的加载和预处理是非常重要的环节。它直接影响到模型的训练效率和性能。本文将详细介绍如何使用 TensorFlow 的 tf.data API 来构建高效的输入管道，包括数据的洗牌、交错读取、预处理等操作，最后还会介绍 TensorFlow 首选的数据存储格式 TFRecord。

1. 数据洗牌

在训练模型时，为了让梯度下降算法工作得更好，训练集中的实例最好是独立同分布（IID）的。一种简单的方法是使用 shuffle() 方法对实例进行洗牌。

import tensorflow as tf

# 创建一个包含 0 到 9 的整数，重复两次的数据集
dataset = tf.data.Dataset.range(10).repeat(2)
# 使用大小为 4 的缓冲区和随机种子 42 进行洗牌，并以 7 为批次大小进行批处理
dataset = dataset.shuffle(buffer_size=4, seed=42).batch(7)
for item in dataset:
    print(item)

在使用 shuffle() 方法时，需要指定缓冲区大小。缓冲区大小要足够大，否则洗牌效果会不佳，但也不要超过可用的 RAM 大小，通常也不需要超过数据集的大小。如果需要每次运行程序时都使用相同的随机顺序，可以提供一个随机种子。

如果在洗牌后的数据集上调用 repeat() </