pytorch dataloader踩坑

最新推荐文章于 2024-03-18 10:36:24 发布

原创最新推荐文章于 2024-03-18 10:36:24 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch

pytorch 专栏收录该内容

1 篇文章

订阅专栏

本文探讨了PyTorch中DataLoader组件在处理自定义数据集时的常见问题，特别是当label数据类型不一致时如何避免default_collate函数抛出的错误。文章提供了两种解决方案：一是将label转换为numpy数组，二是统一label中各元素的数据类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pytorch在加载数据集的时候需要用户自定义数据集代码返回data和label。

torch.utils.data.DataLoader中有一个参数collate_fn，它需要传入一个函数，该函数的功能将list转换为Tensor。torch.utils.data.DataLoader内部实现了一个默认的collate_fn函数：default_collate。

问题来了，当你的label是一个list时，如果用户自定义的数据集_getitem__方法在返回data和label时，label中各元素的数据类型不一致时，torch.utils.data.DataLoader内部的default_collate函数会抛出类似下面的错误：

RuntimeError: tried to construct a tensor from a int sequence, but found an item of type float at index (76)

原因是函数default_collate在将list转为Tensor时，只根据list的第一个元素判断要转成的Tensor类型。

解决方法：

__getitem__返回label时，将list形式的label先转换为numpy数组；或者手动将label的list中个元素类型统一。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xskxushaokai

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PyTorch踩坑记录：解决常见问题和技巧

AvGroovy的博客

09-18

234

通过仔细检查张量形状、减少内存占用、处理梯度问题、正确保存和加载模型以及解决GPU内存问题，您可以更好地应对这些挑战，并更有效地使用PyTorch进行深度学习任务。首先，可以使用合适的权重初始化方法，如Xavier或He初始化，以确保梯度在前向和反向传播中保持稳定。其次，可以将模型的部分层移动到CPU上，以释放GPU内存。然而，在使用PyTorch的过程中，我们可能会遇到一些常见的问题和挑战。确保在保存模型时，将模型的状态字典（state_dict）保存下来，而不是整个模型。函数重塑张量的形状，或者使用。

使用PyTorch中Dataset和Dataloader遇到的问题

xgbm_k的专栏

11-14

6737

今天在使用PyTorch中Dataset遇到了一个问题。先看代码 class psDataset(Dataset): def __init__(self, x, y, transforms = None): super(Dataset, self).__init__() self.x = x self.y = y if tra...

参与评论您还未登录，请先登录后发表或查看评论

为什么pycharm在debug时dataloader每次加载的数据不一样

anxiulan的博客

12-28

629

使用pycharm运行深度学习网络，数据加载部分。

python检查data图片集和label标签集是否相同

fffupeng的博客

12-27

1791

#encoding:utf-8 #检查label和data数据集是否相同，若不相同输出不同的部分 def cheak_data_label: import os py_path=os.getcwd() print "now , python file is located in " + py_path label_path = py_path+"/label" #获取label文件夹位置

pytorch数据加载之torch.utils.data

潜心

03-18

256

pytorch数据加载能力的核心是torch.utils.data.DataLoader类，它表示数据集上的Python iterable，支持如下特性： map-style和iterable-style的数据集 customizing data loading order automatic batching single- and multi-process data loading automatic memory pining Data Loading Order 和 Sampler.

PyCharm深度学习遇到的报错汇总

qq_51505389的博客

03-18

580

*匹配并收集在字典中所有包含位置的参数，但传递进去的却是个元祖。

DataLoader加载数据batch_size导致batch数据量不均等报错

进击的扛把子

01-21

2806

DataLoader函数定义如下： DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=default_collate, pin_memory=False, drop_last=False) 可以将drop_last改为True，drop_last为True会将多出来不足一个batch的数据丢弃。所以就在代码里加上了这个参数为True，继续训练就不再报错了。 ...

[Pytorch] pytorch踩坑日志

qq_42263831的博客

10-11

1382

最近开始学习Pytorch，记录一下自己踩过的坑。系统环境 OS: Windows 10 python: 3.7.6 pytorch: 1.6.0 cuda: 10.2 1.多线程数据加载 trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) 如果在使用上述这类代码时发生如下错误，那

Pytorch踩坑——图像的读取方式对预测结果的影响

qq_41100991的博客

03-01

1890

1、检测结果差异巨大通过Pytorch自带的ImagerFolder读取训练集，读取图片的方式是通过PIL库，而当我们进行一些图像操作通过Opencv读取时，会出现检测结果与预期差异巨大的情况。这是因为PIL与Opencv读取图像的算法不同，同一张图片通过PIL读取预测与通过Opencv读取预测结果是明显不一样的。如下是通过ImagerFolder读取训练集，训练的模型。 import torc...

Pytorch踩坑之路（随时补充）

2401_82949788的博客

02-16

1252

pytorch踩坑之路

LSTM多GPU训练、pytorch 多GPU 数据并行模式

10-25

for inputs, targets in dataloader: inputs, targets = inputs.to(device), targets.to(device) optimizer.zero_grad() output, _ = model(inputs, hidden) loss = criterion(output, targets) loss.backward...

【Pytorch更改Loader中的label】

qq_43717863的博客

11-23

859

有的时候我们在后门攻击时需要对一个数据集的标签进行修改，但是pytorch的data.Dataset只支持按照文件夹中每个子文件夹（包含一个子类的所有数据）中图片的存放位置自动生成label。我们希望图片能够按照原来顺序读取，但是label换成了我们想要的（或者说，做了想要的替换）。data_walk.py内容如下，该python文件自动按照系统的文件排列方式将数据名挨个读到text文件中保存。注意，应将该文件放到train与test文件相同目录下运行，运行结束会在该目录生成装有所有数据名的text文件。

pytorch加载数据

qq_35027690的博客

12-25

416

参考：PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】本文是上面视频的笔记，up主讲的特别详细，推荐观看。在pytorch中加载数据主要涉及到两个类：Dataset 和 Dataloader Dataset :提供一种方式去提取数据并得到label Dataset：对数据进行打包送到网络中去，为后面的网络提供不同的数据形式。下面是代码及说明： from torch.utils....

【Bug】PyTorch DataLoader - “IndexError: too many indices for tensor of dimension 0“

学无止境、积少成多、厚积薄发

02-17

2892

import torch import torchvision import torchvision.transforms as transforms transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5), (0.5)) ]) trainset = torchvision.datasets.MNIST(root='./data', train=True, download...

pytorch dataloader_pytorch常见的坑汇总

weixin_39882948的博客

11-20

2207

随手写了备忘录居然还被cver转载了--------------------------------------------------最近刚开始用pytorch不久，陆陆续续踩了不少坑，记录一下，个人感觉应该都是一些很容易遇到的一些坑，也在此比较感谢帮我排坑的小伙伴，持续更新，也祝愿自己遇到的坑越来越少。首先作为tensorflow的骨灰级玩家+轻微强迫症患者，一路打怪升级，从0.6版本用到1....

pytorch - 数据读取机制中的Dataloader与Dataset

然后就去远行

10-22

3万+

1、人民币二分类要求：将第四套人民币中的一元和一百元进行二分类；怎么建立一个预测模型呢？考虑上一个博客中的机器学习模型训练五大步骤；第一是数据，第二是模型，第三是损失函数，第四是优化器，第五个是迭代训练过程。这里主要学习数据模块当中的数据读取，数据模块通常还会分为四个子模块，数据收集、数据划分、数据读取、数据预处理。在进行实验之前，需要收集数据，数据包括原始样本和标签；有了原始数据之后，...

PyTorch 入门实战（三）——Dataset和DataLoader