看看通义千问的收费标准,提到了Token,大模型都是按Token收费的,究竟Token是个啥?
1. 是什么?
Tokens(标记)是大模型处理文本的最小单位,可以理解为模型"眼睛"看到的文字片段。
-
可能是单词(如 "apple")
-
可能是子词(如 "un + happy" → ["un", "happy"])
-
可能是符号(如标点、表情符号)
2. 特点
① 长度可变:不同语言/分词器的Token长度不同(中文1字≈1.5个Token,英文1词≈1.3个Token)
② 依赖分词器:BERT用WordPiece,GPT用Byte-Pair Encoding(BPE),不同模型分词方式不同
③ 影响成本:按Token数量计费(如GPT-4输入1K Token≈¥0.03)
④ 影响性能:Token数量直接影响计算速度和内存占用
3. 运行原理
用户输入文本 -> 分词器拆分Token -> 模型编码Token为数字 -> 模型处理数字序列 -> 输出结果
5. 使用限制
① 长度限制:模型有最大Token数限制(如GPT-4最大8K/32K/128K)
② 语言差异:中文分词效果<英文(因训练数据比例差异)
③ 特殊符号:生僻符号可能被拆解为乱码(如「♬」→ ["<0xE2>","<0x99>","<0xAC>"])
④ 格式敏感:空格/换行符会被编码(如缩进影响代码生成)
最后为大家推荐大模型的分词器是怎么分Token的网站
https://platform.openai.com/tokenizer(需科学上网)