大模型按Tokens收费?Tokens究竟是啥?

看看通义千问的收费标准,提到了Token,大模型都是按Token收费的,究竟Token是个啥?


 

1. 是什么?

Tokens(标记)是大模型处理文本的最小单位,可以理解为模型"眼睛"看到的文字片段。

  • 可能是单词(如 "apple")

  • 可能是子词(如 "un + happy" → ["un", "happy"])

  • 可能是符号(如标点、表情符号)

2. 特点

① 长度可变:不同语言/分词器的Token长度不同(中文1字≈1.5个Token,英文1词≈1.3个Token)
② 依赖分词器:BERT用WordPiece,GPT用Byte-Pair Encoding(BPE),不同模型分词方式不同
③ 影响成本:按Token数量计费(如GPT-4输入1K Token≈¥0.03)
④ 影响性能:Token数量直接影响计算速度和内存占用

3. 运行原理

用户输入文本 -> 分词器拆分Token -> 模型编码Token为数字 -> 模型处理数字序列 -> 输出结果

5. 使用限制

① 长度限制:模型有最大Token数限制(如GPT-4最大8K/32K/128K)
② 语言差异:中文分词效果<英文(因训练数据比例差异)
③ 特殊符号:生僻符号可能被拆解为乱码(如「♬」→ ["<0xE2>","<0x99>","<0xAC>"])
④ 格式敏感:空格/换行符会被编码(如缩进影响代码生成)

最后为大家推荐大模型的分词器是怎么分Token的网站
https://platform.openai.com/tokenizer(需科学上网)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值