Pytorch如何自定义dataloader的返回格式

最新推荐文章于 2025-05-14 23:05:40 发布

Liekkas_Javey

最新推荐文章于 2025-05-14 23:05:40 发布

阅读量5.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：学术文章标签： dataloader collate_fn dataset pytorch 自定义

本文链接：https://blog.youkuaiyun.com/Liekkas_Javey/article/details/87359648

学术专栏收录该内容

9 篇文章

订阅专栏

本文介绍如何在PyTorch中自定义DataLoader以处理特定数据格式，通过定义collate_function来实现对(string, tensor)格式的数据进行批处理，确保数据能够正确地被加载和使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

例子

例如：自定义的dataset返回的单个样本格式为:(string, tensor)
直接用dataloader(dataset)得到的loader是不能够自动把上述格式转换为batch的。

解决方法：

需要自定义一个collate_function用于返回batch。

def collate_function(data):
	"""
	:data: a list for a batch of samples. [[string, tensor], ..., [string, tensor]]
	"""
    transposed_data = list(zip(*data))
    directorys, imgs = transposed_data[0], transposed_data[1]
    imgs = torch.stack(imgs, 0)
    return (directorys, imgs)

dataloader = torch.utils.data.DataLoader(Dataset(transforms=data_transforms, train=False),
                                         batch_size=2, collate_fn=collate_function, shuffle=True, num_workers=1, pin_memory=True)