DataLoader使用技巧

最新推荐文章于 2025-10-25 12:34:27 发布

原创

最新推荐文章于 2025-10-25 12:34:27 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

本文介绍了如何在Pytorch中使用DataLoader加载现成和自定义数据集。DataLoader作为数据加载器，负责处理数据集和采样器，提供单进程或多进程迭代。在加载自定义数据时，需先将数据转换为TensorDataset格式。

DataLoader是使用Pytorch框架进行数据加载时使用到的一个库。训练数据和测试数据均需通过DataLoader加载后方可被网络使用。

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False,
     sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)
 ## dataset(Dataset): 加载数据的数据集
 ## batch_size(int, optional): 每个batch加载多少个样本数据（默认：1）。
 ## shuffle(bool, optional): 设置True时会在每个epoch重新打乱数据顺序（默认：False）。
 ## sampler(Sampler, optional): 定义从数据集中提取样本的策略。如果指定，则忽略shuffle参数。
 ## num_workers(int, optional): 加载数据的子进程数。0表示数据将在主进程中加载（默认：0）。
 ## collate_fn(callable, optional): 
 ## pin_memory(bool, optional):
 ## drop_last(bool, optional): 如果数据集大小不能被batch size整除，则设置为True后可删除最后一个不完整的batch。如果设为False并且数据集的大小不