dd 进审的2025 A499

原创已于 2025-11-05 09:54:28 修改 · 781 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#emacs #vim #docker

于 2025-11-04 18:30:42 首次发布

大模型训练成本很高，且在推理过程中需要大量的计算资源，为了能够实现大模型应用落地，需解决大模型推理成本、模型响应速度等问题，这就需要对大模型进行推理优化。为此，本文将详细介绍主流的大模型推理优化技术，文章安排如下：

目录99

1.1 预填充阶段（Prefill）

1.2 解码阶段（Decode）

1.3 批处理（Batching）

手🚀。I🔥MYA随便😶 文章ing🚀，[强]２５！＠￥＃…％×）＋Ｌ：＂｛{}｝｜＜＞？ｈ @~！@#￥%……&*（）——+{}|：《》？*-+ddd|{~@

本文相关内容需要大家对Transformer架构和注意力机制有一个基本的了解。不了解的小伙伴可以参考以下文章：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料
如果你也想通过学大模型技术去帮助自己升职和加薪，可以扫描下方链接👇👇

无用的
https://cn.bing.co

真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

geng

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

全栈工程师转型‌。

👉获取方式：
😝】🆓
————————————————
版权声明：本文为优快云博主「5号即使」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.youkuaiyun.com/csdn_te_Blog_005/article/details/154192127

1. 什么是LLM推理

大多数流行的only-decode LLM（例如 GPT-4、Qwen系列）都是针对因果建模目标进行预训练的，本质上是作为下一个词预测器。「这些 LLM 将一系列tokens作为输入，并自回归生成后续tokens，直到满足停止条件」（例如，生成tokens数量的限制或遇到停止词）或直到生成特殊的 <end> 标记生成结束的tokens。该过程涉及两个阶段：预填充阶段和解码阶段。

请注意，tokens是模型处理的语言的原子部分。一个tokens大约是四个英文字符。所有自然语言在输入模型之前都会转换为tokens。下图是大模型推理过程。

1.1 预填充阶段（Prefill）

在预填充阶段，也可以理解为输入阶段。LLM处理输入token以计算中间状态（keys和value），用于生成“第一个”token。每个新的token都依赖于所有先前的token，但由于输入的全部已知，因此在运算上，都是高度并行化矩阵运算，可以有效地使用GPU。

1.2 解码阶段（Decode）

在解码阶段，可以理解为输出阶段。LLM一次自回归生成一个输出token，直到满足停止条件。「每个输出tokens都需要直到之前迭代的所有输出状态（keys和values）」。这与预填充输入处理相比，就像矩阵向量运算未充分利用GPU计算能力。数据（weights, keys, values, activations）从内存传输到GPU的速度决定了延迟，而不是计算实际时间消耗。即，这是一个内存限制操作。

本文中的许多推理挑战和相应的解决方案都涉及此解码阶段的优化：高效的注意力模块、有效管理键和值等。

不同的LLMs可能使用不同的tokenizers，因此比较它们之间的输出tokens可能并不简单。在比较推理吞吐量时，即使两个 LLMs每秒输出的tokens相似，如果它们使用不同的tokenizers，也可能不相等。这是因为相应的tokens可能代表不同数量的字符。

1.3 批处理（Batching）

提高 GPU 利用率和有效吞吐量的最简单方法是通过批处理。由于多个请求使用相同的模型，因此权重的内存成本被分散。「大批量数据传输到 GPU 一次处理，将提高GPU资源的利用率。然而，批量大小只能增加到一定限制，此时可能会导致内存溢出」。为了防止这种情况发生，需要查看键值 (KV) 缓存和 LLM 内存要求。

1标记。或者，可以使用小型模型作为临时模型，使用更大、功能更强大的模型作为验证器。

最后
我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

无用的https://cn.bing.co