掌握文本分割：如何根据Token高效拆分文本

最新推荐文章于 2025-06-12 11:56:41 发布

原创最新推荐文章于 2025-06-12 11:56:41 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#python

部署运行你感兴趣的模型镜像

引言

在自然语言处理（NLP）和语言模型的使用中，文本分割是一个重要步骤。许多语言模型都有token限制，这意味着在处理长文本时，我们需要将其分成较小的块，并确保这些块不超过token限制。本文将介绍如何使用不同的tokenizers来高效地拆分文本，并提供相关代码示例。

主要内容

1. Token的重要性

语言模型使用token来处理和理解文本。token可以是单词、字符或其他有意义的文本片段。在拆分文本时，选择合适的tokenizer尤为重要，以确保模型能够正确理解和处理每个文本块。

2. 使用tiktoken进行文本拆分

tiktoken是由OpenAI创建的一个快速BPE tokenizer。它能够高效地估算文本中使用的tokens，在使用OpenAI模型时可能会更加准确。

# 安装必要的库
%pip install --upgrade --quiet langchain-text-splitters tiktoken

from langchain_text_splitters import CharacterTextSplitter

# 读取文件
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

# 使用tiktoken编码器进行分割
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base", chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(state_of_the_union)
print(texts[0])

3. 分割工具简介

CharacterTextSplitter：根据字符进行简单分割。
RecursiveCharacterTextSplitter：递归地进行分割，确保不超过最大token限制。
TokenTextSplitter：直接工作于tokens，确保每个分割块小于chunk size。

4. 针对不同语言和模型的分割器

spaCy：使用spaCy tokenizer基于字符数量进行分割。
SentenceTransformers：专门为sentence-transformer模型设计的分割器。
NLTK：基于NLTK tokenizer进行分割。
KoNLPy：针对韩语文本，使用Kkma进行细致的形态分析分割。
Hugging Face tokenizer：使用GPT2TokenizerFast来计算token数量分割文本。

代码示例

以下示例显示了如何使用CharacterTextSplitter与GPT2 Tokenizer搭配进行文本分割：

from transformers import GPT2TokenizerFast
from langchain_text_splitters import CharacterTextSplitter

tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

# 读取文件
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

# 使用Hugging Face tokenizer进行分割
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer, chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(state_of_the_union)
print(texts[0])