LLM使用_未收敛的博客-优快云博客

LLM使用

关注

文章平均质量分 91

关注数：文章数：2 文章阅读量：545 文章收藏量：8

作者: 未收敛

喜欢折腾AI和数据的小创作者，爱把复杂的技术讲得简单有趣，也喜欢在文字里记录灵感和思考。

展开

专栏收录文章

【Token分析】从单轮到多轮：Ark / OpenAI 风格大模型 API 的上下文管理与 Token 成本分析

本文分析了单轮与多轮大模型API调用的区别及其Token成本。单轮请求是无状态的独立调用，模型仅处理当前输入。多轮对话通过显式拼接历史消息实现上下文连续性，其中assistant角色内容需手动传入。这种方式虽然简单，但会导致Token成本随轮数线性增长，尤其对长对话影响显著。文章强调模型本身无记忆能力，上下文连续性完全依赖输入Token构造，为后续优化技术（如缓存、压缩等）提供了理论基础。

原创 2026-01-07 15:22:33 · 285 阅读 · 0 评论
【火山方舟 Ark】多轮对话的真实上下文模型与 Token 优化实践

本文澄清了火山方舟Ark在上下文复用方面的能力限制，指出其API虽兼容OpenAI风格但不提供服务端上下文缓存功能。在多轮对话场景中，Ark模型完全无状态，每次请求都需显式拼接历史消息，导致token成本随轮次线性增长。文章分析了token构成来源，强调输入token优化（精简system、摘要化历史）和输出token控制（限长、拆分任务）的重要性，并给出工程实践建议：将Ark视为无状态服务，在调用方实现上下文管理，通过固定system、压缩历史、结构化输入等方式降低成本。正确理解这些特性，才能合理优化大模

原创 2026-01-07 14:46:28 · 332 阅读 · 0 评论

LLM使用

作者: 未收敛

【Token分析】从单轮到多轮：Ark / OpenAI 风格大模型 API 的上下文管理与 Token 成本分析

【火山方舟 Ark】多轮对话的真实上下文模型与 Token 优化实践