torchtext 0.12 中文语料加载

最新推荐文章于 2025-11-29 00:35:02 发布

原创

最新推荐文章于 2025-11-29 00:35:02 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

本文介绍如何使用torchtext 0.12版本进行数据加载，包括词表构建、数据集准备及使用DataLoader进行数据装载的过程。

torchtext 0.12 数据加载

前言
数据集准备
torchtext流程
词表装载
dataloder
后续

前言

蛮久前写过一篇torchtext加载数据，不过官方不久前升级了torchtext，移除了蛮多东西。数据加载也和之前不一样了。

看官方文档，似乎更推荐用torchdata装载数据，不过本文还是先用dataset做。

由于现在网上都没什么新版本教程，一个人看文档摸索的，有错请谅解

……

数据集准备

数据集随意，选用了自己常用的数据集作为例子。基本就如图所示：
在这里插入图片描述

torchtext流程

新版本将之前的Field, TabularDataset，BucketIterator都删去了，流程略有不同。

词表装载

build_vocab_from_iterator 在 torchtext 中建立词表序列
主要参数如下
在这里插入图片描述
iterator 接受组成词表的迭代器
min_freq 是构成词表的最小频率
specials 是特殊词表符号

import pandas as pd
import pkuseg
from torchtext.vocab import build_vocab_from_iterator

seg = pkuseg.pkuseg()


def tokenizer(text):
    return seg.cut(text)


def yield_tokens(data_iter):
    for _, text in data_iter.iterrows():
        yield tokenizer(text['comment'