AIGC: 关于ChatGPT中token和tiktoken工具

本文介绍了在AIGC中,token作为GPT处理文本的基础单位,用于将文本转化为可处理的数据格式。重点讨论了tiktoken工具,它是OpenAI开源的快速分词工具,用于拆分输入文本成token列表。文章还提到,不同GPT模型对token数量有限制,并展示了如何通过Java程序计算token数量,以计算费用和评估是否超过处理阈值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是token

  • token是GPT处理文本的基本的单位
  • token本身可以是一个字,可以是一个词语,或特定语言中的一个字符
  • token负责将输入的文本数据转换为GPT可以处理的数据格式
  • GPT不同模型的计费就是根据token来的

token 的拆分

  • 这里有一个 tiktoken 工具
    • 是 open ai 开源的一个快速分词的工具
    • 可以将我们输入的文本的字符串去进行拆分, 拆分成token的列表
      • 我们通过对 Prompt 进行拆分,计算出token的数量
      • 不同的模型对于token是有限制的,可以判断 Prompt 是不是比较长, 导致GPT对应的模型没有办法处理
      • 我们也可以通过 token 的数量去进行费用的计算
        • 我们开发了一个自助的聊天工具,向用户进行开放
        • 对用户而言,我们可以通过计算token的数量来计算费用
        • 因为openAI它的API的调用的费用也是通过token去进行计算的
      • 举一个例子
        • 比如我们要做一个聊天机器人,对于聊天机器人,是需要我们的历史的一些聊天的信息
        • 需要去判断历史信息,也就是追加上下文的信息,是不是能够被GPT进行处理
        • 这个时候, 可能就会涉
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wang's Blog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值