LLM使用
文章平均质量分 91
未收敛
喜欢折腾AI和数据的小创作者,爱把复杂的技术讲得简单有趣,也喜欢在文字里记录灵感和思考。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Token分析】从单轮到多轮:Ark / OpenAI 风格大模型 API 的上下文管理与 Token 成本分析
本文分析了单轮与多轮大模型API调用的区别及其Token成本。单轮请求是无状态的独立调用,模型仅处理当前输入。多轮对话通过显式拼接历史消息实现上下文连续性,其中assistant角色内容需手动传入。这种方式虽然简单,但会导致Token成本随轮数线性增长,尤其对长对话影响显著。文章强调模型本身无记忆能力,上下文连续性完全依赖输入Token构造,为后续优化技术(如缓存、压缩等)提供了理论基础。原创 2026-01-07 15:22:33 · 285 阅读 · 0 评论 -
【火山方舟 Ark】多轮对话的真实上下文模型与 Token 优化实践
本文澄清了火山方舟Ark在上下文复用方面的能力限制,指出其API虽兼容OpenAI风格但不提供服务端上下文缓存功能。在多轮对话场景中,Ark模型完全无状态,每次请求都需显式拼接历史消息,导致token成本随轮次线性增长。文章分析了token构成来源,强调输入token优化(精简system、摘要化历史)和输出token控制(限长、拆分任务)的重要性,并给出工程实践建议:将Ark视为无状态服务,在调用方实现上下文管理,通过固定system、压缩历史、结构化输入等方式降低成本。正确理解这些特性,才能合理优化大模原创 2026-01-07 14:46:28 · 332 阅读 · 0 评论
分享