机器学习中图像数据集创建与预处理全解析
1. 数据集创建与转换
在机器学习项目里,数据的处理与转换是至关重要的步骤。将输入从 CSV 文件转换为 Cloud pub/sub 能够把批处理管道转变为流式管道。在这个过程中,所有中间步骤保持不变,最终生成的分片 TFRecords(这种格式对机器学习十分有利)可作为我们的机器学习数据湖。
1.1 TFRecorder 的使用
若已有 Pandas 或 CSV 文件中的数据,使用 TFRecorder Python 包会极为便捷,它为 Pandas 数据框增添了 tensorflow.to_tfr() 方法。以下是具体代码示例:
import pandas as pd
import tfrecorder
csv_file = './all_data_split.csv'
df = pd.read_csv(csv_file, names=['split', 'image_uri', 'label'])
df.tensorflow.to_tfr(output_dir='gs://BUCKET/data/output/path')
这里假设 CSV 文件中的行格式如下:
valid,gs://BUCKET/img/abc123.jpg,daisy
train,gs://BUCKET/img/def123.jpg,tulip
TFRecorder 会将图像序列化为 TensorFlow Records。若要在 Cloud
超级会员免费看
订阅专栏 解锁全文
1086

被折叠的 条评论
为什么被折叠?



