HuggingFace Tokenizers 核心组件详解

劳权罡Konrad

于 2025-06-04 09:10:37 发布

阅读量326

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00848/article/details/148417153

HuggingFace Tokenizers 核心组件详解

tokenizers 💥 Fast State-of-the-Art Tokenizers optimized for Research and Production 项目地址: https://gitcode.com/gh_mirrors/to/tokenizers

前言

HuggingFace Tokenizers 是一个高效且灵活的文本分词工具库，它通过模块化设计提供了强大的自定义能力。本文将深入解析 Tokenizers 中的五大核心组件：Normalizers（标准化器）、Pre-tokenizers（预分词器）、Models（模型）、Post-Processors（后处理器）和 Decoders（解码器），帮助开发者理解如何构建适合自己需求的分词器。

1. 标准化器（Normalizers）

标准化器负责对输入文本进行预处理和规范化操作，同时保持原始文本与处理后文本的对齐关系，这对后续的文本分析至关重要。

常见标准化器类型

Unicode 规范化：
- NFD：标准分解形式
- NFKD：兼容分解形式
- NFC：标准分解后重新组合
- NFKC：兼容分解后重新组合
大小写处理：
- Lowercase：将所有字符转换为小写
- 示例："HELLO" → "hello"
空白处理：
- Strip：移除指定侧的空白字符（左/右/两侧）
- 示例：" hello " → "hello"
特殊字符处理：
- StripAccents：移除所有重音符号（建议与NFD配合使用）
- 示例："é" → "e"
自定义替换：
- Replace：支持字符串或正则表达式替换
- 示例：将"a"替换为"e"，"banana" → "benene"
BERT专用：
- BertNormalizer：提供BERT原始实现中的标准化功能
- 可配置选项：clean_text、handle_chinese_chars等
组合使用：
- Sequence：允许多个标准化器按顺序执行
- 示例：Sequence([NFKC(), Lowercase()])

2. 预分词器（Pre-tokenizers）

预分词器定义了如何将输入文本初步拆分为更小的单元，为后续的模型处理做准备。

主要预分词器

字节级处理：
- ByteLevel：基于字节的分词方法（GPT-2使用）
- 特点：仅需256个基础字符，无需未知标记
- 示例："Hello" → "Hello"（非ASCII字符会变得不可读）
空白处理：
- Whitespace：按单词边界分词
- WhitespaceSplit：按任意空白字符分词
标点处理：
- Punctuation：隔离所有标点符号
- 示例："Hello?" → "Hello", "?"
元空格处理：
- Metaspace：用特殊字符"▁"(U+2581)替代空格
- 示例："Hello there" → "Hello", "▁there"
自定义分隔符：
- CharDelimiterSplit：按指定字符分割
- 示例：按"x"分割，"Helloxthere" → "Hello", "there"
数字处理：
- Digits：将数字与其他字符分离
- 示例："Hello123" → "Hello", "123"
高级分割：
- Split：支持正则表达式和多种分割行为
- 行为选项：移除、隔离、与前合并、与后合并、连续
组合使用：
- Sequence：组合多个预分词器按序执行