OpenAI Token计算方式

最新推荐文章于 2025-10-22 20:06:45 发布

原创

最新推荐文章于 2025-10-22 20:06:45 发布 · 4k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#GPT

文章探讨了使用ChatGPTAPI时的收费机制，基于token数量计费，不同模型如GPT4和GPT3.5的价格差异。文中解释了token的概念，以及如何通过编码工具计算中文和英文的token数。还提及了LLM（语言模型）的分词方法，如Subword分词技术。

如果用 ChatGPT API 去做问答的话是需要付费的，OpenAI 的收费方式是通过 token 数量进行收费，API 价格根据不同模型有所不同，可以看到 GPT4 最贵，GPT3.5 最便宜。这让我想起以前用 Aliyun 中台，每个 SQL 都有个运行价格，ChatGPT 也有一个计算token 的 API，调用 API 之前可以计算一下token 数量。那么问题来了，这个 token 是怎么算的呢？先看官网怎么定义 token 的:

文本生成和嵌入模型通过称为“令牌（tokens）”的文本块来处理文本。令牌代表经常出现的字符序列。例如，字符串“tokenization”被拆分为“ token”和“ization”，而像“the”这样短小且常见的词则表示为单一令牌。请注意，在句子中，每个词的第一个令牌通常以空格字符开始。您可以查看我们的分词工具，以测试特定字符串并查看它们如何被转换为令牌。作为一个大致的经验法则，1个令牌大约等于4个字符或0.75个英文单词。

需要记住的一个限制是，对于文本生成模型，提示和生成的输出加起来不能超过模型的最大上下文长度。对于嵌入模型（不输出令牌），输入必须短于模型的最大上下文长度。每个文本生成和嵌入模型的最大上下文长度可以在模型说明中找到。

官方提供了一个工具可以检查token 数，我尝试了一下，官网说英文差不多是一个token 对应 0.75 个 word，中文有可能被拆成两个，均下来可能也差不多。由于中文是 unicode，有时可能会被拆成两个 token，显示时就是乱码。
在这里插入图片描述

通过 API，检查 token 数量

import tiktoken
enc = tiktoken.encoding_for_model("gpt-4") #按需修改模型名称
len(enc.encode("上午5日游计划")) #返回的也是 8 个

Token 就是对输入进行分词，像 ES 中就有很多分词

最低0.47元/天解锁文章