LangChain 文本标记拆分全攻略：从 tiktoken 到 Hugging Face 的多场景实践

原创于 2025-06-18 19:46:29 发布 · 590 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #python #人工智能

LangChain 专栏收录该内容

92 篇文章

订阅专栏

在构建大语言模型应用时，我们常常面临这样的挑战：当输入文本超过模型令牌限制时，如何科学地拆分文本以保持语义完整性？尤其是在处理多语言文档或专业领域文本时，传统的字符拆分方式往往导致上下文断裂。今天我们就来系统解析 LangChain 中基于不同分词器的文本标记拆分方案，帮你根据不同场景选择最合适的拆分策略，确保 LLM 应用高效稳定运行。

一、tiktoken：OpenAI 模型的黄金搭档

为什么选择 tiktoken？

作为 OpenAI 开发的 BPE 分词器，tiktoken 能最精准地估算 OpenAI 系列模型（如 GPT-4、GPT-3.5）的令牌使用情况。与传统字符拆分不同，它能识别字节对编码规则，例如将 "unpredictable" 拆分为 "un", "pred", "ict", "able" 等子词，更贴近模型实际处理逻辑。

实战示例：精准控制 GPT-4 输入长度

python

运行

# 安装必要依赖
%pip install --upgrade --quiet langchain-text-splitters tiktoken

# 加载示例文档
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

from langchain_text_splitters import CharacterTextSplitter

# 方式1：基于编码名称初始化（适用于已知编码场景）
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base",  # GPT-4使用的编码
    chunk_size=100,              # 目标块大小（令牌数）
    chunk_overlap=0,             # 块重叠量（避免语义断层）
)
texts = text_splitter.split_text(state_of_the_union)
print(f"cl100k_base拆分结果：{texts[0][:100]}...")

# 方式2：基于模型名称初始化（自动匹配编码）
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    model_name="gpt-4",         # 直接指定目标模型
    chunk_size=150,
    chunk_overlap=20,
)
texts = text_splitter.split_text(state_of_the_union)
print(f"gpt-4模型适配拆分：{texts[0][:100]}...")

递归拆分：硬约束令牌数量

python

运行

from langchain_text_splitters import RecursiveCharacterTextSplitter

# 严格控制每个块不超过100令牌
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    model_name="gpt-3.5-turbo",
    chunk_size=100,
    chunk_overlap=10,
    separators=["\n\n", "\n", " ", ""]  # 拆分优先级顺序
)
texts = text_splitter.split_text(state_of_the_union)
print(f"递归拆分块数：{len(texts)}，平均令牌数：{sum(len(t) for t in texts)/len(texts):.1f}")

多语言注意事项

中文 / 日文场景：建议使用RecursiveCharacterTextSplitter而非TokenTextSplitter，避免单字符拆分为多个令牌
特殊符号处理：tiktoken 对 emoji、数学符号的拆分可能不符合预期，需提前预处理

二、spaCy：专业 NLP 分词的首选

核心优势与应用场景

spaCy 作为高级 NLP 库，提供基于语言规则的精准分词，能识别句子边界、词性标注和命名实体。在处理法律文书、学术论文等需要语义完整的文本时，spaCy 的拆分结果更符合人类理解习惯。

实战示例：智能句子边界拆分

python

运行

# 安装spaCy及英文模型
%pip install --upgrade --quiet spacy
import spacy
nlp = spacy.load("en_core_web_sm")  # 加载英文模型

from langchain_text_splitters import SpacyTextSplitter

# 初始化拆分器（按spaCy句子边界拆分）
text_splitter = SpacyTextSplitter(
    pipeline=nlp,                # 传入已加载的spaCy管道
    chunk_size=1000,             # 按字符数控制块大小
    chunk_overlap=100,           # 重叠量保持上下文连贯
)
texts = text_splitter.split_text(state_of_the_union)

# 查看拆分效果（保留完整句子）
print("spaCy拆分示例：")
for i, text in enumerate(texts[:2]):
    print(f"块{i+1}：{text[:150]}...\n")

自定义管道配置

python

运行

# 自定义spaCy管道（增强命名实体识别）
nlp = spacy.load("en_core_web_sm")
nlp.add_pipe("entityrecognizer")  # 添加自定义组件

text_splitter = SpacyTextSplitter(
    pipeline=nlp,
    chunk_size=800,
    # 自定义句子分割规则
    sentence_separator=lambda doc: [s.text for s in doc.sents]
)

三、SentenceTransformers：嵌入模型适配拆分

核心逻辑与适用场景

SentenceTransformersTokenTextSplitter 专为句子嵌入模型设计，能根据模型的令牌窗口自动调整拆分策略。在需要计算文本语义相似度、构建向量数据库的场景中，这种拆分方式能确保每个块的语义完整，提升检索准确性。

实战示例：嵌入模型友好型拆分

python

运行

from langchain_text_splitters import SentenceTransformersTokenTextSplitter

# 方式1：使用默认模型（all-mpnet-base-v2）
splitter = SentenceTransformersTokenTextSplitter(
    chunk_overlap=20,            # 令牌重叠量
    tokens_per_chunk=384,        # 适配模型的最佳窗口
)

# 方式2：指定特定模型
splitter = SentenceTransformersTokenTextSplitter(
    model_name="sentence-transformers/paraphrase-MiniLM-L6-v2",
    chunk_overlap=10,
    tokens_per_chunk=256,
)

# 执行拆分
texts = splitter.split_text(state_of_the_union)
print(f"SentenceTransformers拆分块数：{len(texts)}")

令牌计数与调整

python

运行

# 手动计算文本令牌数
text = "This is a test sentence for token counting."
token_count = splitter.count_tokens(text)
print(f"文本令牌数：{token_count}")

# 动态调整块大小
max_tokens = splitter.maximum_tokens_per_chunk
if token_count > max_tokens:
    adjusted_chunks = splitter.split_text(text * 2)  # 模拟长文本
    print(f"调整后块数：{len(adjusted_chunks)}")

四、NLTK：经典 NLP 拆分方案

传统与现代结合的选择

作为历史悠久的 NLP 工具包，NLTK 提供基于规则和统计的分词方法。在需要兼容旧版系统或处理简单文本时，NLTKTextSplitter 是稳定可靠的选择，尤其适合教育场景或快速原型开发。

实战示例：基础文本拆分

python

运行

# 安装NLTK
%pip install --upgrade --quiet nltk
import nltk
nltk.download("punkt")  # 下载分词模型

from langchain_text_splitters import NLTKTextSplitter

# 初始化拆分器（使用NLTK的punkt分词器）
text_splitter = NLTKTextSplitter(
    chunk_size=1000,
    chunk_overlap=100,
    # 自定义分隔符优先级
    separators=["\n\n", "\n", ". ", "! ", "? ", " ", ""]
)
texts = text_splitter.split_text(state_of_the_union)

# 查看拆分结果
print(f"NLTK拆分块数：{len(texts)}，首块长度：{len(texts[0])}")

五、KoNLPy：韩语专业分词解决方案

多语言支持的关键一环

在处理韩语等特殊语言时，通用分词器往往失效。KoNLPy 集成的 Kkma 分析器能正确处理韩语的形态特征，将文本拆分为有意义的词素，是韩语 NLP 任务的必备工具。

实战示例：韩语经典文本拆分

python

运行

# 安装KoNLPy
%pip install --upgrade --quiet konlpy

from langchain_text_splitters import KonlpyTextSplitter
from konlpy.tag import Kkma  # 导入Kkma分析器

# 加载韩语文档（以《春香传》为例）
with open("./chunhyang.txt", "r", encoding="utf-8") as f:
    korean_text = f.read()

# 初始化拆分器
text_splitter = KonlpyTextSplitter(
    tokenizer=Kkma(),              # 指定Kkma分析器
    chunk_size=500,                # 按字符数控制块大小
    chunk_overlap=50,
)
texts = text_splitter.split_text(korean_text)

# 查看拆分结果（保留韩语句子完整性）
print("韩语拆分示例：")
for i, text in enumerate(texts[:2]):
    print(f"块{i+1}：{text[:100]}...\n")

性能优化建议

韩语长文本处理时，可先使用KonlpyTextSplitter按句子拆分，再结合TokenTextSplitter控制令牌数
对于实时性要求高的场景，可考虑使用轻量化的Okt分词器替代Kkma

六、Hugging Face：通用性最强的分词方案

跨模型兼容的终极选择

Hugging Face 生态支持数千种分词器，通过from_huggingface_tokenizer方法，LangChain 能无缝集成任意 Hugging Face 分词器，满足多模型、多语言的复杂需求。

实战示例：GPT2 分词器集成

python

运行

from transformers import GPT2TokenizerFast
from langchain_text_splitters import CharacterTextSplitter

# 加载Hugging Face分词器
tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")

# 初始化拆分器（按GPT2分词规则拆分）
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    chunk_size=100,
    chunk_overlap=10,
)
texts = text_splitter.split_text(state_of_the_union)

# 验证拆分结果与模型令牌计数一致
from transformers import GPT2Model

model = GPT2Model.from_pretrained("gpt2")
for text in texts[:2]:
    tokens = tokenizer.encode(text, return_tensors="pt")
    print(f"文本长度：{len(text)}，令牌数：{len(tokens[0])}")

多语言分词器切换

python

运行

# 中文场景使用bert-base-chinese分词器
tokenizer = GPT2TokenizerFast.from_pretrained("bert-base-chinese")
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer=tokenizer,
    chunk_size=200,  # 中文场景建议增大块大小
    chunk_overlap=30,
)

七、多场景选型指南与性能优化

场景化工具选择对照表

应用场景	推荐分词器	核心参数	注意事项
OpenAI 模型对接	tiktoken	model_name = 目标模型	优先使用`from_tiktoken_encoder`方法
专业文档语义拆分	spaCy	pipeline = 自定义 nlp 管道	提前加载对应语言模型
嵌入向量构建	SentenceTransformers	model_name = 嵌入模型	块大小适配模型最佳窗口
韩语特殊处理	KoNLPy	tokenizer=Kkma()	长文本需分段处理
跨模型兼容	Hugging Face	tokenizer = 目标分词器	注意不同模型的 padding 策略

性能优化最佳实践

缓存分词结果：对重复处理的文本，缓存令牌计数结果

python

运行

# 实现简单缓存
from functools import lru_cache

@lru_cache(maxsize=1000)
def cached_token_count(text):
    return splitter.count_tokens(text)

批量处理优化：使用create_documents批量生成 Document 对象

python

运行

docs = text_splitter.create_documents([state_of_the_union] * 10)  # 批量处理10份文档

多语言预处理：中文 / 日文场景先按句子拆分，再控制令牌数

python

运行

# 中文拆分最佳实践
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    model_name="gpt-4",
    chunk_size=800,
    separators=["。！？.!?\n\n", "\n", " ", ""]
)