FlagAI项目Tokenizer使用指南：从原理到实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01184/article/details/148552151

FlagAI项目Tokenizer使用指南：从原理到实践

FlagAI FlagAI (Fast LArge-scale General AI models) is a fast, easy-to-use and extensible toolkit for large-scale model. 项目地址: https://gitcode.com/gh_mirrors/fl/FlagAI

什么是Tokenizer？

在自然语言处理(NLP)项目中，Tokenizer(分词器)是预处理阶段的核心组件。它的主要作用是将非结构化的文本数据转换为适合机器学习系统处理的数值矩阵。这个过程我们称之为"Tokenization"(分词/标记化)。

简单来说，Tokenizer的工作流程可以分为两个关键步骤：

将自然语言文本分割成一系列有意义的语义单元，称为Token(标记)
通过查表方式将这些Token转换为对应的数字ID

举个例子，对于句子"Jack is walking a dog."，Tokenizer可能会将其分割为： ["Jack", "is", "walking", "a", "dog", "."]

然后根据词汇表转换为对应的ID序列，如：[2990, 2003, 3788, 1037, 3899, 1012]

FlagAI中的Tokenizer使用

加载预训练Tokenizer

FlagAI提供了便捷的方式来加载预训练好的Tokenizer：

from flagai.data.tokenizer import Tokenizer

# 选择模型名称，如GLM-large-en
model_name = "GLM-large-en"  

# 加载对应Tokenizer
tokenizer = Tokenizer.from_pretrained(model_name)

执行这段代码时，FlagAI会自动从模型中心下载对应的词汇表文件，默认保存在./checkpoints/{model_name}目录下。

使用Tokenizer进行编码解码

加载Tokenizer后，我们可以方便地进行文本编码和解码操作：

text = "Jack is walking a dog."

# 编码：文本 → Token ID列表
encoded_ids = tokenizer.EncodeAsIds(text)
# 输出示例：[2990, 2003, 3788, 1037, 3899, 1012]

# 解码：Token ID列表 → 文本
recovered_text = tokenizer.DecodeIds(encoded_ids)
# 输出应与原文本相同

自定义Tokenizer开发指南

虽然FlagAI提供了多种预训练Tokenizer，但在某些特定场景下，我们可能需要开发自己的Tokenizer。以下是实现自定义Tokenizer的关键步骤：

1. 创建Tokenizer包

首先需要在指定目录下创建Tokenizer包，保持项目结构清晰。

2. 基于Hugging Face实现

我们可以基于Hugging Face的Tokenizer进行封装。以T5 Tokenizer为例：

from transformers import T5Tokenizer
from ..tokenizer import Tokenizer

class T5BPETokenizer(Tokenizer):
    def __init__(self, model_type_or_path="t5-base", cache_dir=None):
        # 初始化Hugging Face的T5 Tokenizer
        self.text_tokenizer = T5Tokenizer.from_pretrained(
            model_type_or_path,
            cache_dir=cache_dir
        )
        # 设置最大长度
        self.text_tokenizer.max_len = int(1e12)