LLM大模型Token用量统计计算

原创已于 2025-11-01 16:58:26 修改 · 525 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-11-01 16:51:13 首次发布

token 是模型用来表示自然语言文本的基本单位，可以直观的理解为“字”或“词”。

通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。

一般情况下模型中 token 和字数的换算比例大致如下：

1 个英文字符 ≈ 0.3 个 token。

1 个中文字符 ≈ 0.6 个 token。

不同模型的分词不同，换算比例也存在差异。

这里示例集中token计算方式

1 transformer统计

1.1 安装transformer

安装指令如下

pip install transformer

1.2 示例统计

基于transformer的token统计程序示例如下。

import transformers

chat_tokenizer_dir = "./"

tokenizer = transformers.AutoTokenizer.from_pretrained( 
        chat_tokenizer_dir, trust_remote_code=True
        )

prompt = "这是一个测试文本，用于计算 Tokens 用量。"

token_ids = tokenizer.encode(prompt)

print("Tokens 数量:", len(token_ids))

输出如下，一共32个字符，token数为8。

Tokens 数量: 11

deepseek官网统计token数程序理解

https://cdn.deepseek.com/api-docs/deepseek_v3_tokenizer.zip

2 tiktoken

尝试用tiktoken统计token数量

2.1 安装tiktoken

安装指令如下

pip install tiktoken

2.2 示例统计

示例程序如下

import tiktoken

# 加载 DeepSeek 的 Tokenizer（假设使用类似 GPT 的 Tokenizer）
encoding = tiktoken.get_encoding("cl100k_base")  # 替换为实际的 Tokenizer 名称

# 输入文本
input_text = "这是一个测试文本，用于计算 Tokens 用量。"

# 计算 Tokens
token_ids = encoding.encode(input_text)

# 输出结果
print("Tokens 数量:", len(token_ids))

输出如下