Pytorch对NLP的数据进行处理，使用Dataset和Dataloader方法

最新推荐文章于 2024-07-27 00:30:37 发布

原创

最新推荐文章于 2024-07-27 00:30:37 发布 · 5.7k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #自然语言处理

本文详细介绍了如何使用PyTorch的Dataset和DataLoader处理LCQMC数据集，实现短文本匹配任务。具体步骤包括构建自定义Dataset类、实现数据迭代方法、定义文本补齐函数collate_fn以及使用DataLoader批量加载数据。

此次数据使用的是LCQMC，它是做短文本匹配的一个数据，长这样

判断两个文本是否相似，如果相似标签为1，不相似为0

对于数据的处理在这里就不做研究了，无非就是分词，构建词表之类的，这里只说Dataset和DataLoader的用法。

我们首先构建一个类，并继承Dataset类

class DatasetIterater(Dataset):
    def __init__(self,texta,textb,label):
        self.texta = texta
        self.textb = textb
        self.label = label

    def __getitem__(self, item):
        return self.texta[item],self.textb[item],self.label[item]

    def __len__(self):
        return len(self.texta)

既然继承Dataset类，就要实现Dataset类的方法。

第一个方法就不用说了，初始化方法。

第二个是迭代方法，每次得到是一个数据，不是一个batch，我最初以为是一个batch的数据。

第三个就是返回数据的个数

但是，处理NLP的数据，通常情况下是需要对数据进行补齐，也就是在不够长度的数据后补0，所以需要自己实现一个collate_fn函数来进行对文本的补齐操作。

def collate_fn(batch_data,pad=0):
    texta,tex

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

烟雨人长安

关注关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

torchnlp：基于PyTorch和TorchText构建的易于使用的NLP库

02-03

火炬手 TorchNLP是用于NLP任务的深度学习库。它基于PyTorch和TorchText构建，旨在提供可跨任务使用的可重用组件。当前，它可以用于具有双向LSTM CRF模型和Transformer网络模型的命名实体识别（NER）和分块任务。它可以支持使用任何数据集。不久将添加更多任务高水平的工作流程定义NLP任务扩展Model类并实现forward()和loss()方法以分别返回预测和损失使用HParams类轻松定义模型的超参数使用 API定义一个数据函数以返回数据集迭代器，词汇表等。查看conll.py的示例设置Evaluator和Trainer类以使用模型，数据

精选资源

实例讲解Dataset 和 DataLoader的 zoro数据集

01-22

无论是图像识别、自然语言处理还是其他领域，都需要高效地管理和处理数据，而`Dataset`和`DataLoader`就是为此而设计的工具。通过理解并正确使用这两个组件，我们可以更好地组织和优化我们的数据加载流程，从而提升...

2 条评论您还未登录，请先登录后发表或查看评论

『NLP学习笔记』简单实现Dataset和Dataloader(补充生成器/wget/curl/top)

AI新视界

05-04

2220

简单实现Dataset和Dataloader

NLP-文本处理：数据批次化【DataSet、DataLoader构建】

u013250861的博客

02-01

985

人工智能-自然语言处理-应用案例：问答系统（Question Answering）

【深度学习】在PyTorch中使用Datasets和DataLoader来定制文本数据

fengdu78的博客

07-26

1176

作者 | Jake Wherlock编译 | VK来源 | Towards Data Science创建一个PyTorch数据集并使用Dataloader对其进行管理，并有助于简化机器...

《nlp入门+实战：第七章：pytorch中数据集加载和自带数据集的使用》

zhiyikeji的博客

07-29

1323

在torch中提供了数据集的基类，继承这个基类，我们能够非常快速的实现对数据的加载。torch.utils.data.Dataset的源码如下1._len_方法，能够实现通过全局的len()方法获取其中的元素个数2._getitem_方法，能够通过传入索引的方式获取数据，例如通过dataset[i]获取其中的第i条数据数据集的原始地址http运行以后，会在data目录下生成以下数据集可以看出其中数据集返回了两条数据，可以猜测为图片的数据和目标值由上可知httpshttps。...............

PyTorch数据加载工具：Dataset和DataLoader详解

在PyTorch中，数据加载模块（如Dataset和DataLoader类）起着至关重要的作用，帮助用户高效地加载、处理和组织训练数据。 ## 1.2 数据加载在深度学习中的重要性在深度学习中，数据加载是模型训练过程中不可或缺的...

用WikiText2构建Dataset和DataLoader

最新发布

AI天才研究院

07-27

642

用WikiText2构建Dataset和DataLoader 作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来

pytorch快速上手之三_使用Dataset、Dataloader

IMchg的博客

12-11

550

当要换成自己的数据集时，需要用Dataset、Dataloader处理数据集，将数据喂给模型使用dataset和dataloader https://blog.youkuaiyun.com/He3he3he/article/details/105441083 https://blog.youkuaiyun.com/zw__chen/article/details/82806900 https://blog.youkuaiyun.com/u011995719/article/details/85102770 https://blog.cs.

NLP-D28-深度&Bi循环神经网络| 翻译模型与预测模型之预处理|data.DataLoader(*arrays)|encoder-decoder|*args&**kwargs

weixin_45252975的博客

05-22

609

----0530虽然昨天1点才睡，但是早上5点就行醒了，除了眼睛有点不适之外，没什么别的感觉。今天打算先把毕业设计的视频录一下，然后就可以把沐沐的课和代码看完了，然后！！！终于！！！写了28天的NLP之后，终于可以去看宝可梦了！哭哭！好想跑步啊！！先贴个膏药。。。。。 —0653吃完饭啦~咋感觉一个多小时啥都没做呢hhhh就写了个计划和日记，好像真的没干别的，奇奇怪怪，哭。 —看完木木的62-seq2seq趴了一会，现在清醒多了！！！咱就是说，nap的性价比真的贼高~现在来敲一敲代码子！争取上午可以看完

NLP实战：中文文本分类-Pytorch实现

m0_62237233的博客

05-31

8526

model.train() # 切换为训练模式optimizer.zero_grad() # grad属性归零loss = criterion(predicted_label, label) # 计算网络输出和真实值之间的差距，label为真实值loss.backward() # 反向传播torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1) # 梯度裁剪optimizer.step() # 每一步自动更新# 记录acc与loss。

Pytorch实例----NLP之文本分类

qq_37172182的博客

06-27

1070

介绍：使用YYelp dataset(提取码：eqy3)，对餐馆评价做训练，预测新的评价是否属于积极评价。整体流程：数据集预处理：对json数据集解析csv格式，并进行数据集划分； import csv import json import pandas as pd def json2csv(csv_file_path, json_file_path, n = 10): with open(json_file_path,'r',encoding='utf...

NLP data处理

qq_34929889的博客

10-27

834

NLP data处理pytorch datasettorchtextiterator加载词向量主要总结一下，NLP数据的处理过程 NLP数据的处理主要有分词，然后记录每个词出现的次数，每个词对应的id，word2id,id2word。python有很多库如from collections import Counter，scipy，jieba等配合使用 pytorch dataset file = open('train.txt','r') i = 0 data,tag,sentence_lst = []

nlp中常用DataLoader中的collate_fn，对batch进行整理使其符合bert的输入

防搞活机的博客

12-07

1701

DataLoader中的collate_fn 整理batch

Pytorch中的DataLoader处理机制

MSFollower的博客

08-09

1120

# 该代码主要是为了讲解介绍Dataloader的工作机制 # 任何Dataset数据类的子类，并重写相关的函数 class NerDataset(data.Dataset): # 将需要的参数进行初始化 def __init__(self, examples, tokenizer, label_map, max_seq_length): self.examples=examples self.tokenizer=tokenizer self.

Pytorch基本使用——NLP数据集构建总结

weixin_51691064的博客

07-17

2067

1.定义batch_size大小2.得到batch_size的尺寸3.记录batch_size是否为整数。

pytorch Dataloader 数据集加载

weixin_43654661的博客

09-05

1004

为节约内存，深度学习必须使用分流的方式加载数据 keras 使用的是fit_generator Pytorch 使用DataLoader __len__()函数可以控制数据加载的大小; 使用collate_fn得到自定义输出: 注意：（可以将一个batch的数据整合成想要的输入） ...

pytorch分布式训练（五DataLoader）

m0_37400316的博客

07-09

934

torch.utils.data.DataLoader 本节讲述collate_fn使用。 def __init__(self, dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0,

Pytorch之torch.utils.data.Dataset与torch.utils.data.Dataloader构造数据迭代器

云计算、数据库、大数据、容器、微服务、深度学习、NLP、Python

05-17

822

实现利用torch.utils.data.Datasettorch.utils.data.Dataset.Dataloader构造数据迭代器。在每次训练模型时，利用这个迭代器输出一个batch数据 import torch from torch.utils.data import DataLoader, Dataset from torch.utils.data.dataset import random_split class DataTensor(Dataset): def __init__