Python产生batch数据的方法

最新推荐文章于 2024-07-08 18:40:23 发布

黄然大悟

最新推荐文章于 2024-07-08 18:40:23 发布

阅读量1.6w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： Python 文章标签：产生batch数据 batch数据批量数据

本文链接：https://blog.youkuaiyun.com/huanghaocs/article/details/83242353

本文介绍了如何在Python中创建batch数据，适用于机器学习模型训练。数据以numpy.array格式存储，包括多个特征和标签。文章提供了代码实现，通过索引值生成指定大小的batch，并可选择是否打乱数据顺序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考此文：https://blog.youkuaiyun.com/qq_33039859/article/details/79901667

产生batch数据

输入data中每个样本可以有多个特征，和一个标签，最好都是numpy.array格式。
datas = [data1, data2, …, dataN ], labels = [label1, label2, …, labelN]，
其中data[i] = [feature1, feature2,…featureM], 表示每个样本数据有M个特征。
输入我们方法的数据，all_data = [datas, labels] 。

代码实现

通过索引值来产生batch大小的数据，同时提供是否打乱顺序的选择，根据随机产生数据量范围类的索引值来打乱顺序。

import numpy as np

def batch_generator(all_data , batch_size, shuffle=True):
    """
    :param all_data : all_data整个数据集，包含输入和输出标签
    :param batch_size: batch_size表示每个batch的大小
    :param shuffle: 是否打乱顺序
    :return:
    """
    # 输入all_datas的每一项必须是numpy数组，保证后面能按p所示取值
    all_data = [np.array(d) for d in all_data]