[NLP] TorchText 使用指南

最新推荐文章于 2025-09-19 05:09:36 发布

原创

最新推荐文章于 2025-09-19 05:09:36 发布 · 2k 阅读

CC 4.0 BY-SA版权

TorchText 是 PyTorch 的一个功能包，主要提供文本数据读取、创建迭代器的的功能与语料库、词向量的信息，分别对应了 torchtext.data、torchtext.datasets 和 torchtext.vocab 三个子模块。本文参考了三篇文章。

1. 语料库 `torchtext.datasets`

TorchText 内建的语料库有：

Language Modeling
- WikiText-2
- WikiText103
- PennTreebank
Sentiment Analysis
- SST
- IMDb
Text Classification
- TextClassificationDataset
- AG_NEWS
- SogouNews
- DBpedia
- YelpReviewPolarity
- YelpReviewFull
- YahooAnswers
- AmazonReviewPolarity
- AmazonReviewFull
Question Classification
- TREC
Entailment
- SNLI
- MultiNLI
Machine Translation
- Multi30k
- IWSLT
- WMT14
Sequence Tagging
- UDPOS
- CoNLL2000Chunking
Question Answering
- BABI20
Unsupervised Learning
- EnWik9

2. 预训练的词向量 `torchtext.vocab`

TorchText 内建的预训练词向量有：

charngram.100d
fasttext.en.300d
fasttext.simple.300d
glove.42B.300d
glove.840B.300d
glove.twitter.27B.25d
glove.twitter.27B.50d
glove.twitter.27B.100d
glove.twitter.27B.200d
glove.6B.50d
glove.6B.100d
glove.6B.200d
glove.6B.300d

3. 数据读取、数据框的创建 `torchtext.data`

3.1 创建 `Field`

Field 可以理解为一个告诉 TorchText 如何处理字段的声明。

torchtext.data.Field(sequential=True, use_vocab=True, init_token=None, eos_token=None, fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None, lower=False, tokenize=None, tokenizer_language='en', include_lengths=False, batch_first=False, pad_token='<pad>', unk_token='<unk>', pad_first=False, truncate_first=False, stop_words=None, is_target=False)

参数很多，这里仅仅介绍主要参数：