方便学习之 torchtext.datasets 篇章翻译

torchtext提供了一系列数据集和工具,如IMDB、SST、SNLI等,用于情感分析、机器翻译、序列标注等任务。它包含的数据集子类化自torchtext.data.Dataset,支持split和iters方法,便于数据处理和建模。例如,可以使用torchtext构建词汇表并创建数据迭代器进行训练和测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

torchtext

torchtext 包由数据处理实用程序和自然语言的流行数据集组成。

'''
All datasets are subclasses of torchtext.data.Dataset, which inherits from torch.utils.data.Dataset i.e, they have split and iters methods implemented.

General use cases are as follows:

所有数据集都是torchtext.data.Dataset的子类,它继承了torch.utils.data.Dataset,即它们实现了split和iters方法。

一般用例如下:
'''
# Approach 1, splits: 
# 方法1,splits:

# set up fields 设置字段
TEXT = data.Field(lower=True, include_lengths=True, batch_first=True)
LABEL = data.Field(sequential=False)

# make splits for data 对数据进行拆分
train, test = datasets.IMDB.splits(TEXT, LABEL)

# build the vocabulary 建立词汇
TEXT.build_vocab(train, vectors=GloVe(name='6B', dim=300))
LABEL.build_vocab(train)

# make iterator for splits 生成用于拆分的迭代器
train_iter, test_iter = data.BucketIterator.splits(
    (train, test), batch_size=3, device=0)
# Approach 2, iters:
# 方法2 iters:

# use default configurations 使用默认配置
train_iter, test_iter = datasets.IMDB.iters(batch_size=4)
# The following datasets are available:
# 以下数据集可用:

Datasets 数据集

该文章翻译于 torchtext.datasets — torchtext 0.4.0 documentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值