模型训练batch数据抽样

最新推荐文章于 2025-06-23 21:22:10 发布

原创

最新推荐文章于 2025-06-23 21:22:10 发布 · 2.5k 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了如何在模型训练中使用自定义DataGenerator，通过生成器和yield来提供数据。讨论了PyTorch和Keras中处理大规模数据集的不同方式，强调了在Keras中使用Sequence类的优势，特别是在内存限制的情况下。同时提到了Keras的fit_generator()函数和callback功能，并给出了相关资源链接供进一步学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自定义DataGenerator

生成器，结合for循环以及yield来产生数据

import numpy as np


class DataGenerator(object):
    def __init__(self, batch_size):
        self.batch_size = batch_size

    def generate(self, xs, ys):
        x = xs[0]
        y = ys[0]
        batch_size = self.batch_size
        n_samples = len(x)

        index = np.arange(n_samples)
        np.random.shuffle(index)

        max_iter = np.ceil(n_samples / batch_size)
        iter = 0
        pointer = 0
        while True:
            if iter >= max_iter:
                break
            batch_idx = index[pointer: min(pointer + batch_size, n_samples)]
            pointer += batch_size
            yield