3分钟掌握tiktoken核心：encode_ordinary极速文本编码实战指南-优快云博客

3分钟掌握tiktoken核心：encode_ordinary极速文本编码实战指南

【免费下载链接】tiktoken tiktoken is a fast BPE tokeniser for use with OpenAI's models. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiktoken

你还在为文本处理速度慢而烦恼吗？还在纠结如何高效编码普通文本？本文将带你一文掌握tiktoken库中encode_ordinary方法的全部用法，解决你的文本编码痛点。读完本文，你将能够：

理解encode_ordinary的核心功能与使用场景
掌握其基本用法和高级技巧
了解与其他编码方法的区别
学会在实际项目中正确应用

什么是tiktoken？

tiktoken是一个快速的BPE（Byte Pair Encoding，字节对编码）分词器，专为OpenAI的模型设计。它能够将文本转换为模型可以理解的 tokens（标记），是自然语言处理任务中的重要工具。项目结构清晰，主要代码位于tiktoken/core.py文件中。

encode_ordinary方法解析

基本功能

encode_ordinary是tiktoken库中Encoding类的一个方法，用于将字符串编码为tokens，且忽略特殊标记。用专业术语来说，它是一种BPE分词器的实现。

从源码中可以看到其定义：

def encode_ordinary(self, text: str) -> list[int]:
    """Encodes a string into tokens, ignoring special tokens.
    This is equivalent to `encode(text, disallowed_special=())` (but slightly faster).
    ```
    >>> enc.encode_ordinary("hello world")
    [31373, 995]
    """
    try:
        return self._core_bpe.encode_ordinary(text)
    except UnicodeEncodeError:
        # See comment in encode
        text = text.encode("utf-16", "surrogatepass").decode("utf-16", "replace")
        return self._core_bpe.encode_ordinary(text)

与encode方法的区别

encode_ordinary方法等价于encode(text, disallowed_special=())，但速度稍快。这是因为它不需要处理特殊标记的检查和过滤，直接对普通文本进行编码。

异常处理

该方法有完善的异常处理机制。当遇到Unicode编码错误时，会尝试使用"utf-16"编码并替换错误部分，确保编码过程能够继续进行。

encode_ordinary基本用法

步骤一：获取编码对象

首先，需要获取一个编码对象。可以使用tiktoken.get_encoding()方法，指定所需的编码名称，如"gpt2"或"cl100k_base"。

import tiktoken
enc = tiktoken.get_encoding("gpt2")

步骤二：调用encode_ordinary方法

获取编码对象后，就可以调用encode_ordinary方法对文本进行编码了。

tokens = enc.encode_ordinary("hello world")
print(tokens)  # 输出: [31373, 995]

实际测试案例

在项目的测试文件tests/test_simple_public.py中，有对编码功能的测试案例：

def test_simple():
    enc = tiktoken.get_encoding("gpt2")
    assert enc.encode("hello world") == [31373, 995]
    # 虽然这里使用的是encode方法，但在disallowed_special=()时结果与encode_ordinary相同
    
    enc = tiktoken.get_encoding("cl100k_base")
    assert enc.encode("hello world") == [15339, 1917]

encode_ordinary高级应用

批量编码

如果你需要对多个文本进行编码，可以使用循环调用encode_ordinary方法：

texts = ["hello world", "how are you", "tiktoken is great"]
enc = tiktoken.get_encoding("gpt2")
all_tokens = [enc.encode_ordinary(text) for text in texts]
print(all_tokens)

与解码方法配合使用

编码后的tokens可以使用decode方法解码回文本：

enc = tiktoken.get_encoding("gpt2")
tokens = enc.encode_ordinary("hello world")
text = enc.decode(tokens)
print(text)  # 输出: "hello world"

处理特殊字符

虽然encode_ordinary会忽略特殊标记，但它仍然可以处理包含特殊字符的普通文本：

enc = tiktoken.get_encoding("gpt2")
text = "Hello, world! This is a test."
tokens = enc.encode_ordinary(text)
print(tokens)
# 输出可能类似: [15496, 11, 995, 0, 428, 318, 257, 1296, 13]

性能考量

tiktoken以其速度快而闻名，encode_ordinary作为其中的一个高效方法，在处理大量文本时表现出色。项目中提供了性能测试脚本scripts/benchmark.py，你可以使用它来测试encode_ordinary的性能。

此外，项目根目录下的perf.svg文件可能包含性能测试结果的可视化图表，可以帮助你更好地了解tiktoken的性能表现。

常见问题解答

Q: encode_ordinary与encode方法哪个更快？

A: encode_ordinary通常比encode方法稍快，因为它不需要处理特殊标记的检查。

Q: 什么时候应该使用encode_ordinary而不是encode？

A: 当你确定文本中不包含需要特殊处理的标记，或者你希望忽略特殊标记时，应该使用encode_ordinary。

Q: encode_ordinary是否支持所有类型的文本？

A: 是的，它能够处理各种类型的文本，包括包含特殊字符的文本，并且有完善的异常处理机制来应对编码问题。

总结

encode_ordinary是tiktoken库中一个非常实用的方法，它能够快速将普通文本编码为tokens，且忽略特殊标记。通过本文的介绍，你应该已经掌握了它的基本用法和高级技巧。

在实际项目中，合理使用encode_ordinary可以提高文本处理效率，特别是在处理大量普通文本时。如果你想深入了解更多细节，可以查看项目源码，特别是tiktoken/core.py文件。

希望本文对你理解和使用tiktoken有所帮助！如果你有任何问题或建议，欢迎在项目中提出issue。

扩展学习资源

项目官方文档：README.md
编码核心实现：tiktoken/core.py
测试案例：tests/test_simple_public.py
性能测试：scripts/benchmark.py

【免费下载链接】tiktoken tiktoken is a fast BPE tokeniser for use with OpenAI's models. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiktoken

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考