A10 20251105

原创

已于 2025-11-05 09:57:40 修改 · 356 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#模块测试

于 2025-11-05 09:55:35 首次发布

大模型训练成本很高，且在推理过程中需要大量的计算资源，为了能够实现大模型应用落地，需解决大模型推理成本、模型响应速度等问题，这就需要对大模型进行推理优化。为此，本文将详细介绍主流的大模型推理优化技术，文章安排如下：

目录 1010

手🚀。I🔥MYA随便😶 文章ing🚀，[强]２５！＠￥＃…％×）＋Ｌ：＂｛{}｝｜＜＞？ｈ @~！@#￥%……&*（）——+{}|：《》？*-+ddd|{~@

本文相关内容需要大家对Transformer架构和注意力机制有一个基本的了解。不了解的小伙伴可以参考以下文章：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料
如果你也想通过学大模型技术去帮助自己升职和加薪，可以扫描下方链接👇👇

无用的
https://cn.bing.co

真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

geng

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

全栈工程师转型‌。

👉获取方式：
😝】🆓
————————————————
版权声明：本文为优快云博主「5号即使」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.youkuaiyun.com/csdn_te_Blog_005/article/details/154192127

1. 什么是LLM推理

大多数流行的only-decode LLM（例如 GPT-4、Qwen系列）都是针对因果建模目标进行预训练的，本质上是作为下一个词预测器。「这些 LLM 将一系列tokens作为输入，并自回归生成后续tokens，直到满足停止条件」（例如，生成tokens数量的限制或遇到停止词）或直到生成特殊的 <end> 标记生成结束的tokens。该过程涉及两个阶段：预填充阶段和解码阶段。

请注意，tokens是模型处理的语言的原子部分。一个tokens大约是四个英文字符。所有自然语言在输入模型之前都会转换为tokens。下图是大模型推理过程。

1.1 预填充阶段（Prefill）

在预填充阶段，也可以理解为输入阶段。LLM处理输入token以计算中间状态（keys和value），用于生成“第一个”token。每个新的token都依赖于所有先前的token，但由于输入的全部已知，因此在运算上，都是高度并行化矩阵运算，可以有效地使用GPU。

1.2 解码阶段（Decode）

在解码阶段，可以理解为输出阶段。LLM一次自回归生成一个输出token，直到满足停止条件。「每个输出tokens都需要直到之前迭代的所有输出状态（keys和values）」。这与预填充输入处理相比，就像矩阵向量运算未充分利用GPU计算能力。数据（weights, keys, values, activations）从内存传输到GPU的速度决定了延迟，而不是计算实际时间消耗。即，这是一个内存限制操作。

本文中的许多推理挑战和相应的解决方案都涉及此解码阶段的优化：高效的注意力模块、有效管理键和值等。

不同的LLMs可能使用不同的tokenizers，因此比较它们之间的输出tokens可能并不简单。在比较推理吞吐量时，即使两个 LLMs每秒输出的tokens相似，如果它们使用不同的tokenizers，也可能不相等。这是因为相应的tokens可能代表不同数量的字符。

1.3 批处理（Batching）

提高 GPU 利用率和有效吞吐量的最简单方法是通过批处理。由于多个请求使用相同的模型，因此权重的内存成本被分散。「大批量数据传输到 GPU 一次处理，将提高GPU资源的利用率。然而，批量大小只能增加到一定限制，此时可能会导致内存溢出」。为了防止这种情况发生，需要查看键值 (KV) 缓存和 LLM 内存要求。

1标记。或者，可以使用小型模型作为临时模型，使用更大、功能更强大的模型作为验证器。

最后
我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，