HuggingFace Tokenizers项目：从内存数据训练分词器的完整指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01103/article/details/148417161

HuggingFace Tokenizers项目：从内存数据训练分词器的完整指南

tokenizers 💥 Fast State-of-the-Art Tokenizers optimized for Research and Production 项目地址: https://gitcode.com/gh_mirrors/to/tokenizers

前言

在自然语言处理(NLP)任务中，分词器(Tokenizer)是将原始文本转换为模型可处理形式的关键组件。HuggingFace Tokenizers项目提供了高效、灵活的分词器实现方案。本文将重点介绍如何直接从内存数据训练分词器，而非依赖文件系统。

基础概念

分词器组件

在开始之前，我们需要了解分词器的几个核心组件：

模型(Model)：决定如何将文本分割成token，如Unigram、BPE等算法
预处理器(Pre-tokenizer)：在模型处理前对文本进行初步分割
后处理器(Post-processor)：对模型输出进行后处理
解码器(Decoder)：将token转换回原始文本

训练流程

训练分词器的基本流程包括：

初始化分词器模型
配置预处理和后处理组件
准备训练数据
使用Trainer进行训练

初始化分词器和训练器

以下代码展示了如何初始化一个基于Unigram模型的分词器：

from tokenizers import Tokenizer
from tokenizers.models import Unigram
from tokenizers.trainers import UnigramTrainer
from tokenizers.pre_tokenizers import ByteLevel
from tokenizers.normalizers import NFKC

tokenizer = Tokenizer(Unigram())
tokenizer.normalizer = NFKC()
tokenizer.pre_tokenizer = ByteLevel()
trainer = UnigramTrainer(
    vocab_size=20000,
    initial_alphabet=ByteLevel.alphabet(),
    special_tokens=["<unk>", "<pad>", "<s>", "</s>"]
)

这个配置使用了：

NFKC Unicode标准化方法
ByteLevel预处理器
对应的解码器

从内存数据训练

基础方法：使用Python列表

最简单的训练方式是直接使用Python列表：

data = [
    "这是第一个句子。",
    "这是第二个稍长的句子。",
    "最后一个是第三个句子。"
]

tokenizer.train_from_iterator(data, trainer=trainer)

任何可迭代对象都可以作为训练数据源，包括列表、元组、numpy数组等。

高级应用：使用数据集库

对于大规模数据集，我们可以使用数据集库高效加载和处理数据：

from datasets import load_dataset

dataset = load_dataset("wikitext", "wikitext-103-v1", split="train")

然后定义一个批量迭代器：

def batch_iterator(batch_size=1000):
    for i in range(0, len(dataset), batch_size):
        yield dataset[i : i + batch_size]["text"]

最后进行训练，并指定数据集总长度以显示进度条：

tokenizer.train_from_iterator(
    batch_iterator(),
    trainer=trainer,
    length=len(dataset)

批量处理可以显著提高训练效率，接近直接从文件训练的性能。

处理压缩文件

单个gzip文件

Python的gzip文件对象本身就是可迭代的：

import gzip

with gzip.open("data.txt.gz", "rt") as f:
    tokenizer.train_from_iterator(f, trainer=trainer)

多个gzip文件

处理多个压缩文件也很简单：

files = ["data1.txt.gz", "data2.txt.gz", "data3.txt.gz"]

def gzip_iterator():
    for filepath in files:
        with gzip.open(filepath, "rt") as f:
            for line in f:
                yield line

tokenizer.train_from_iterator(gzip_iterator(), trainer=trainer)