在Paddle中如何创建并使用自己创建的reader数据读入者

原创于 2019-03-07 10:51:45 发布 · 3k 阅读

11 ·

CC 4.0 BY-SA版权

本文详细介绍了如何在PaddlePaddle的Fluid框架中使用自定义数据集。通过创建一个数据读入者(reader)，可以轻松地将自己的数据集整合到训练流程中。文章提供了具体的代码示例，展示了如何定义reader并将其应用于数据批处理。

部署运行你感兴趣的模型镜像

问题描述：想在Fluid中使用自己的数据集，但不知如何创建一个reader来使用自己的数据
问题分析：Paddle为了让使用者更加容易上手，对很多实例数据进行了封装，方便直接使用，这些实例数据的封装代码，具体封装好的数据有：

import paddle.dataset.mnist
import paddle.dataset.imikolov
import paddle.dataset.imdb
import paddle.dataset.cifar
import paddle.dataset.movielens
import paddle.dataset.conll05
import paddle.dataset.uci_housing
import paddle.dataset.sentiment
import paddle.dataset.wmt14
import paddle.dataset.wmt16
import paddle.dataset.mq2007
import paddle.dataset.flowers
import paddle.dataset.voc2012
import paddle.dataset.image

封装的逻辑其实具有普适性，你可以模仿封装代码中定义reader数据读入者的方法。

解决方法：

这里写一个简单的reader，代码如下：

import paddle.fluid as fluid
import paddle

def reader_createor(data, label):
    def reader():
        for i in  range(len(data)):
            yield data[i,:], int(label[i])
    return reader


train_reader = paddle.batch(
    paddle.reader.shuffle(
        reader=reader_createor(data, label),buf_size=200
    ), batch_size=16
)