方便学习之 torchtext.datasets 篇章翻译

最新推荐文章于 2024-08-27 23:52:50 发布

chuanyang09

最新推荐文章于 2024-08-27 23:52:50 发布

阅读量499

点赞数

CC 4.0 BY-SA版权

文章标签：学习人工智能 pytorch

本文链接：https://blog.youkuaiyun.com/u014474004/article/details/130170174

torchtext提供了一系列数据集和工具，如IMDB、SST、SNLI等，用于情感分析、机器翻译、序列标注等任务。它包含的数据集子类化自torchtext.data.Dataset，支持split和iters方法，便于数据处理和建模。例如，可以使用torchtext构建词汇表并创建数据迭代器进行训练和测试。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

torchtext

torchtext 包由数据处理实用程序和自然语言的流行数据集组成。

'''
All datasets are subclasses of torchtext.data.Dataset, which inherits from torch.utils.data.Dataset i.e, they have split and iters methods implemented.

General use cases are as follows:

所有数据集都是torchtext.data.Dataset的子类，它继承了torch.utils.data.Dataset，即它们实现了split和iters方法。

一般用例如下：
'''

# Approach 1, splits: 
# 方法1，splits：

# set up fields 设置字段
TEXT = data.Field(lower=True, include_lengths=True, batch_first=True)
LABEL = data.Field(sequential=False)

# make splits for data 对数据进行拆分
train, test = datasets.IMDB.splits(TEXT, LABEL)

# build the vocabulary 建立词汇
TEXT.build_vocab(train, vectors=GloVe(name='6B', dim=300))
LABEL.build_vocab(train)

# make iterator for splits 生成用于拆分的迭代器
train_iter, test_iter = data.BucketIterator.splits(
    (train, test), batch_size=3, device=0)

# Approach 2, iters:
# 方法2 iters：

# use default configurations 使用默认配置
train_iter, test_iter = datasets.IMDB.iters(batch_size=4)

# The following datasets are available:
# 以下数据集可用：

Datasets 数据集

该文章翻译于 torchtext.datasets — torchtext 0.4.0 documentation