dd 进审的2025 A499

 大模型训练成本很高,且在推理过程中需要大量的计算资源,为了能够实现大模型应用落地,需解决大模型推理成本、模型响应速度等问题,这就需要对大模型进行推理优化。为此,本文将详细介绍主流的大模型推理优化技术,文章安排如下:

99

目录99

1.1 预填充阶段(Prefill)

1.2 解码阶段(Decode)

1.3 批处理(Batching)


手🚀。I🔥MYA随便😶 文章ing🚀,[强]25!@¥#…%×)+L:"{{}}|<>?h @~!@#¥%……&*()——+{}|:《》?*-+ddd|{~@

本文相关内容需要大家对Transformer架构和注意力机制有一个基本的了解。不了解的小伙伴可以参考以下文章:

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料
如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​

无用的
https://cn.bing.co

真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​ geng

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

全栈工程师转型‌。

👉获取方式:
😝】🆓
————————————————
版权声明:本文为优快云博主「5号即使」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/csdn_te_Blog_005/article/details/154192127

1. 什么是LLM推理


大多数流行的only-decode LLM(例如 GPT-4、Qwen系列)都是针对因果建模目标进行预训练的,本质上是作为下一个词预测器。「这些 LLM 将一系列tokens作为输入,并自回归生成后续tokens,直到满足停止条件」(例如,生成tokens数量的限制或遇到停止词)或直到生成特殊的 <end> 标记生成结束的tokens。该过程涉及两个阶段:预填充阶段和解码阶段。

请注意,tokens是模型处理的语言的原子部分。一个tokens大约是四个英文字符。所有自然语言在输入模型之前都会转换为tokens。下图是大模型推理过程。

1.1 预填充阶段(Prefill)


在预填充阶段,也可以理解为输入阶段。LLM处理输入token以计算中间状态(keys和value),用于生成“第一个”token。每个新的token都依赖于所有先前的token,但由于输入的全部已知,因此在运算上,都是高度并行化矩阵运算,可以有效地使用GPU。

1.2 解码阶段(Decode)


在解码阶段,可以理解为输出阶段。LLM一次自回归生成一个输出token,直到满足停止条件。「每个输出tokens都需要直到之前迭代的所有输出状态(keys和values)」。这与预填充输入处理相比,就像矩阵向量运算未充分利用GPU计算能力。数据(weights, keys, values, activations) 从内存传输到GPU的速度决定了延迟,而不是计算实际时间消耗。即,这是一个内存限制操作。

本文中的许多推理挑战和相应的解决方案都涉及此解码阶段的优化:高效的注意力模块、有效管理键和值等。

不同的LLMs可能使用不同的tokenizers,因此比较它们之间的输出tokens可能并不简单。在比较推理吞吐量时,即使两个 LLMs每秒输出的tokens相似,如果它们使用不同的tokenizers,也可能不相等。这是因为相应的tokens可能代表不同数量的字符。

1.3 批处理(Batching)


提高 GPU 利用率和有效吞吐量的最简单方法是通过批处理。由于多个请求使用相同的模型,因此权重的内存成本被分散。「大批量数据传输到 GPU 一次处理,将提高GPU资源的利用率。然而,批量大小只能增加到一定限制,此时可能会导致内存溢出」。为了防止这种情况发生,需要查看键值 (KV) 缓存和 LLM 内存要求。

1标记。或者,可以使用小型模型作为临时模型,使用更大、功能更强大的模型作为验证器。


 最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料
如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​

无用的https://cn.bing.co

真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​ geng


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

全栈工程师转型‌。

👉获取方式:
😝】🆓

请问以下SQL何处报错 with fw as ( select distinct c.采购单位编码 from bdsps.mt_pur_寻源定标信息表 c where c.采购单位编码 in ( select distinct c_unit_id from "bdsps"."mt_finance_c_auditee" a left join "bdsps"."mt_pur_caigou_dw" b on a.被对象ID = b.sys_unit_id where c_unit_id is not null and 用户编号 in ( select ? from dual) ) ) SELECT t1.*, t2.供应商名称 投标详情供应商名称 , t2.是否成交 投标详情是否成交, t2.综合排名 投标详情综合排名, t2.分数 投标详情分数, t2.报价货款 投标详情报价货款, t2.成交总额 投标详情成交总额, t2.最终报价 投标详情最终报价 FROM ( SELECT a.采购单位名称, a.方案名称, a.方案类别, a.采购方式, to_char(CAST(a.方案批通过时间 AS DATETIME), 'yyyy-mm-dd') 采购方案批通过日期, 开标时间, a.标段编号, a.标段编码, a.标段名称, a.标段预计总金额, 综合排名, 评方法, 供应商名称 中标供应商名称 , 报价总额, 成交总额, a.最终报价, to_char(CAST(a.寻源批时间 AS DATETIME), 'yyyy-mm-dd') 寻源批日期, b.最低报价, round((a.最终报价-b.最低报价)/ b.最低报价 * 100, 2) "中标价高于最低报价比例[%]" FROM bdsps.mt_pur_寻源定标信息表 a JOIN ( SELECT 采购单位编码, 采购单位名称, 方案编号, 方案名称, 方案类别, 标段编号, 标段名称, 标段预计总金额, 采购方式, to_char(CAST(方案批通过时间 AS DATETIME), 'yyyy-mm-dd') 采购方案批通过时间, min(最终报价) 最低报价 FROM bdsps.mt_pur_寻源定标信息表 WHERE 采购方式 NOT LIKE '%单一来源%' AND 采购方式 NOT LIKE '%直接%' GROUP BY 采购单位编码, 采购单位名称, 方案编号, 方案名称, 方案类别, 标段编号, 标段名称, 标段预计总金额, 采购方式, to_char(CAST(方案批通过时间 AS DATETIME), 'yyyy-mm-dd') ) b ON a.采购单位编码 = b.采购单位编码 AND a.方案编号 = b.方案编号 AND a.标段编号 = b.标段编号 where a.成交总额>0 AND a.采购方式 NOT LIKE '%单一来源%' AND a.采购方式 NOT LIKE '%直接%' and ( ? is null or a.采购单位编码 in ( select * from fw ) ) and ( ? is null or cast(a.方案批通过时间 as date ) >= ?) and ( ? is null or cast (a.方案批通过时间 as date) <= ?) AND (? is null or round((a.最终报价-b.最低报价)/ b.最低报价 * 100, 2) >= ?)
10-23
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

5号即使

谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值