随着大模型(LLM)的快速发展,越来越多的应用依赖模型生成高质量文本。然而,许多用户在使用中发现一个现象:模型生成的文本更精确,但 token 消耗也显著增加,成本往往由用户自己承担。这背后到底发生了什么?本文带你分析 token、分词策略与成本之间的关系。

1. Token 与分词策略
Token 是模型处理文本的最小单位。不同模型的 tokenizer 分词方式不同:
-
精细分词(Fine-grained):单字、子词或字节为单位
-
粗分词(Coarse-grained):整词或短语为单位
| 特性 | 精细分词 | 粗分词 |
|---|---|---|
| Token 粒度 | 细 | 粗 |
| Token 数量 | 多 | 少 |
| 生成精度 | 高 | 中低 |
| 罕见词处理能力 | 强 | 弱 |
| 冗余/废话 | 低 | 高 |
| 计算成本 | 高 | 低 |
| 适用场景 | 问答、代码、公式 | 普通文本、聊天 |
结论:精细分词提升模型理解和生成精度,但同样文本占用更多 token。
2. 流式输出与"废话"问题
大模型通常采用流式输出(streaming),逐 token 返回内容:
delta.content: "集团旗下的超大规模语言模型" delta.content: "。我能够回答问题" delta.content: "、创作文字(比如写故事、写公文)"
-
每个 chunk 包含部分 token
-
为了连贯性,模型可能生成一些过渡词或套话
-
结果:你会看到“零散句子”或废话增多
对用户:虽然可读性有时受影响,但 token 数量仍按实际消耗计费。
3. 为什么精细分词增加了成本
-
计算成本真实存在
精细分词 → 更多 token → GPU/TPU 运算量增加
-
存储与带宽开销增加
输入和输出 token 需要网络传输、缓存和日志存储
-
商业模式
-
按 token 计费是量化和公平的方式
-
用户使用越多,成本越高;厂商无需承担额外风险
-
4. 用户为什么要买单
(1) 从厂商角度
-
计算成本真实存在
模型精度提升需要 更精细的分词、更大的计算资源、更复杂的训练
-
用户使用越多 → 成本无限增长
-
厂商可能亏损,尤其是高频调用场景
-
按 token 收费是最直接、可量化的方式,让用户和厂商公平分摊成本
-
-
如果厂商自行承担 token 增加的成本:精细分词 → token 数增加 → GPU/TPU 运算量增加
-
存储和带宽开销
-
输入/输出 token 需要网络传输、缓存和日志存储
-
-
商业可持续性
(1) 厂商的目标是在市场上保持竞争力和可持续运营精度是竞争力,但“按量付费”也是市场常规
(2) 如果厂商自行承担成本,高频调用或长文本生成可能导致亏损
(3) 按 token 收费是一种可量化、透明的模式
5. 市场激励
-
用户按 token 付费 → 激励优化 prompt、减少冗余
-
厂商按需提供高精度模型 → 保持技术竞争力
换句话说,精度是厂商竞争力,而 token 成本由用户承担,是一种现实的商业折中方案。
(2) 从用户角度
从用户角度看,这种模式确实存在不公平感:
-
模型精度本应是厂商价值体现,为什么额外成本却由用户买单?
-
精细分词是为了提升体验,但成本增加直接落在使用者身上
-
核心矛盾:技术进步提升了价值,但也增加了使用门槛
(3) 用户应对策略
虽然商业模式短期内无法改变,用户可以通过策略 降低 token 消耗:
-
精简 prompt:减少无效输入,避免冗余 token
-
控制输出长度:设置
max_tokens或明确指令只输出核心内容 -
选择合适模型:关键任务使用高精度模型,普通聊天或批量生成使用低成本模型
-
优化生成方式:批量处理、复用历史内容,减少重复 token
大模型为何因精细分词增成本

被折叠的 条评论
为什么被折叠?



