什么是token
- token是GPT处理文本的基本的单位
- token本身可以是一个字,可以是一个词语,或特定语言中的一个字符
- token负责将输入的文本数据转换为GPT可以处理的数据格式
- GPT不同模型的计费就是根据token来的
token 的拆分
- 这里有一个 tiktoken 工具
- 是 open ai 开源的一个快速分词的工具
- 可以将我们输入的文本的字符串去进行拆分, 拆分成token的列表
- 我们通过对 Prompt 进行拆分,计算出token的数量
- 不同的模型对于token是有限制的,可以判断 Prompt 是不是比较长, 导致GPT对应的模型没有办法处理
- 我们也可以通过 token 的数量去进行费用的计算
- 我们开发了一个自助的聊天工具,向用户进行开放
- 对用户而言,我们可以通过计算token的数量来计算费用
- 因为openAI它的API的调用的费用也是通过token去进行计算的
- 举一个例子
- 比如我们要做一个聊天机器人,对于聊天机器人,是需要我们的历史的一些聊天的信息
- 需要去判断历史信息,也就是追加上下文的信息,是不是能够被GPT进行处理
- 这个时候, 可能就会涉