Pytorch DataLoader 变长数据处理方法

最新推荐文章于 2024-07-10 22:30:43 发布

原创

最新推荐文章于 2024-07-10 22:30:43 发布 · 4.9k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#Pytorch #Python #变长数据

本文介绍了在Pytorch中处理变长数据的问题，特别是针对NLP任务，当输入数据长度不一致时，DataLoader会错误地切割句子。通过重写DataLoader的collate_fn函数，可以确保批量加载的数据正确处理，使得每个批次的数据能够正确整合。

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。
现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。解决方法是重写DataLoader的collate_fn，具体方法如下：

# 假如每一个样本为：
sample = {
   
   
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4, 1

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

扣德夫特

关注关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorchDataLoader中调整数据长度不一致问题（lstm等）

weixin_48174100的博客

09-08

7669

数据长度不一致用pytorch做rnn的时候，如果输入数据不一样长，可以用两种方式解决。一种是自定义collate方法， #自定义collate_fn dataloader.DataLoader(dataset,4,True,collate_fn=my_collate) 然后里面写数据和标签载入方式即可 def my_collate(batch): data = [item[0] for item in batch] target = [item[1] for item in batc

pytorch DataLoader处理不定长序列

phil的博客

02-05

7075

本篇博客的目的是：将下图这样的输入（每个tensor表示一个句子，01为句子标签）：转化为下图所示的输出（batch_size=2）元组的第一个元素为填充后的句子向量，第二个元素为句子长度，第三个元素为句子的label。为什么需要这样的处理？如果需要使用RNN模型处理序列数据，肯定不能将变长的序列直接输入模型，所以需要在输入前对其进行填...

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

暖一杯茶灬 2020.07.27
您好，请问一下，您的trainset里面的数据是什么格式？也是自己定义的吗？
- 扣德夫特回复暖一杯茶灬 2020.08.01
  [reply]weixin_45862050[/reply]完全可以自己定义，collate_fn函数拿到的东西是样本组成的列表。

jshhcdxs 2019.04.19
大佬，有偿求ACE2005语料数据，695311736@qq.com

Pytorch DataLoader 变长数据处理方式

12-23

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据，这篇官方文档已经说得很清楚了，这里就不在赘述。现在的问题：有的时候，特别对于NLP任务来说，输入的数据可能不是定长的，比如多个句子的长度一般不会一致，这时候使用DataLoader加载数据时，不定长的句子会被胡乱切分，这肯定是不行的。解决方法是重写DataLoader的collate_fn，具体方法如下： # 假如每一个样本为： sample = { # 一个句子中各个词的id 'token_list' : [5, 2, 4, 1, 9, 8], # 结果y 'label' : 5

k近邻算法matlab实现_分类算法——K近邻

weixin_33258222的博客

12-24

2895

之前介绍的可视化、数据处理、爬虫等一些操作，简单来讲都是数据分析过程或多或少接触到的部分，本想继续去介绍更多关于R语言有趣的包，比如Rmarkdown、shiny等，不过涉及的内容比较多，所有我打算隔一段时间再整理和大家分享。那么近期的话，我就打算先着手一些简单的数据分析方法的介绍，并结合实际的数据，实现一个简单的数据分析过程，经验尚浅希望通过这种方法提高自己的能力，大家有好的想法也可以提一下，我...

PyTorch DataLoader 学习

刘念卿的博客

07-10

4986

首先定义一个数据集类，该类需要继承自并实现__len__和方法。# 创建一些示例数据data = torch.randn(100, 3, 64, 64) # 100个样本，每个样本为3x64x64的图像labels = torch.randint(0, 2, (100,)) # 100个标签，0或1如果需要自定义如何将样本合并为批次，可以定义自己的collate_fn函数。collate_fn处理变长序列：在处理变长序列或不规则数据时，自定义collate_fn函数，确保每个批次的数据能够正确合并。

PyTorch处理RNN输入变长序列padding

大脸猫的博客

04-20

1507

为什么RNN需要处理变长输入假设我们有情感分析的例子，对每句话进行一个感情级别的分类，主体流程大概是下图所示：思路比较简单，但是当我们进行batch个训练数据一起计算的时候，我们会遇到多个训练样例长度不同的情况，这样我们就会很自然的进行padding，将短句子padding为跟最长的句子一样。比如向下图这样：但是这会有一个问题，什么问题呢？比如上图，句子“Yes”只有一个单词，但是padding了5的pad符号，这样会导致LSTM对它的表示通过了非常多无用的字符，这样得到的句子表

NLP自然语言处理与神经网络——01.embedding实现（理论+实践）

m0_51474171的博客

10-03

3588

为了对前面的word_embedding这种常用的文本向量化进行巩固，这里完成一个文本情感分类的案例点我这是一条包含了五万条流行电影的评论数据，其中训练集25000条，测试集25000条，数据格式如下：下图分别为名称和评论内容，名称包含两部分，分别是序号和情感评分，（1-4为neg，5-10为pos）

pytorch利用dataloader封装长度不同视频数据集

m0_51275398的博客

08-05

672

如题

Pytorch：长度不同的数据如何放在一个batch

u013250861的博客

01-10

1847

为我们提供的数据裁剪函数，当collate_fn=None时，初始化会调用默认的裁剪方式即直接将数据打包，所以这时如果数据shape不一致，会打包不成功。因此我们需要自己写一个collate_fn函数，我常用的两种方式是：1.将所有数据截断到和最短的数据一样长；2.将所有的数据补零到和最长的数据一样长。是一致的，才能打包成一个方块投入模型。这样是没法成功加载dataset，因为Dataloader要求一个batch内的数据。RNN及其变种算法处理一维信号经常会遇到信号长度不一致的问题。

DataLoader处理不定长数据并使用RNN训练

sxh520zz的博客

12-17

1422

使用DataLoader输入不定长序列到RNN网络 1.自定义 collate_fn class subDataset(Dataset.Dataset): def __init__(self,Data_1,Label): self.Data_1 = Data_1 self.Label = Label def __len__(self): return len(self.Data_1) def __getitem__(self, item

DataLoader加载数据batch_size导致batch数据量不均等报错

进击的扛把子

01-21

2963

DataLoader函数定义如下： DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=default_collate, pin_memory=False, drop_last=False) 可以将drop_last改为True，drop_last为True会将多出来不足一个batch的数据丢弃。所以就在代码里加上了这个参数为True，继续训练就不再报错了。 ...

pytorch使用教程-基于自定义 Dataloader中的collate_fn 函数实现变长数据处理

SZ-crystal

05-14

8884

问题背景想要使用pytorch 框架中的 Dataset 和 Dataloader 类，将变长序列整合为batch数据（主要是对长短不一的序列进行补齐)，通过自定义collate_fn函数，实现对变长数据的处理。主要思路 Dataset 主要负责读取单条数据，建立索引方式。 Dataloader 负责将数据聚合为batch。应用实例测试环境： python 3.6 ,pytorch 1.2.0 数据路径： data路径下存储的是待存储的数据样本。举例：其中的 1.json 样本格式为：定义

Pytorch 节省内存、显存的一些技巧

xiaoxifei的专栏

01-15

1万+

Pytorch中有一些节省内存、显存的技巧，我结合自己的经验以及如下网址所载内容进行描述：技巧 inplace 操作比如在relu或者LeakyRelu里面使用inplace，可以减少对内存的消耗；这种操作根据我个人的经验是比较有效的，尤其是在一些ResNet结构单元使用比较多的模型上；具体可以参考下文进行尝试：比如ResNet 和 DenseNet 可以将 batchnorm 和relu...

[Pytorch]PyTorch Dataloader自定义数据读取

急流勇进

12-11

1万+

[Pytorch]PyTorch Dataloader自定义数据读取整理一下看到的自定义数据读取的方法，较好的有一下三篇文章，其实自定义的方法就是把现有数据集的train和test分别用含有图像路径与label的list返回就好了，所以需要根据数据集随机应变。所有图片都在一个文件夹1 之前刚开始用的时候，写Dataloader遇到不少坑。网...

pytorch dataloader和batch_size大小的理解