文章目录
如何使用PyTorch处理AG_NEWS新闻分类数据集,主要包括数据加载、文本分词、词汇表构建以及预处理流水线的定义。
1. 数据加载与查看
from torchtext.datasets import AG_NEWS
train_iter = AG_NEWS(root='../datasets', split='train')
print("连续三个next(train_iter)得到的结果:")
print(next(train_iter))
print(next(train_iter))
print(next(train_iter))
- 功能:加载AG_NEWS训练集,并打印前三个样本。
- 输出示例:每个样本为元组
(标签, 文本)
,如(3, "Wall St. Bears Claw Back Into the Black...")
。 - 注意:AG_NEWS的标签为
1~4
,分别对应类别:World