本人项目地址大全:Victor94-king/NLP__ManVictor: 优快云 of ManVictor
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
如果你也在这波DeepSeek R1私有化部署的浪潮里,你的老板可能会让你预估下部署一个XX版本的模型需要什么样的硬件资源,TPS是多少。为此,你也许会上网搜索各种测试,你可能会看到这样的图:

这些测评基本上都是机构或者网友基于自己的机器测出来的值,有没有什么方法能够让我们快速估计出一个值作为整体的考量,即使它没有那么精准?
今天,我会带大家一起梳理一下
-
- 大模型推理的性能指标有哪些
-
- 大模型推理的性能和什么相关
-
- 如何快速通过已有的信息,估计出大模型的理论推理性能极限
1. 大模型推理的性能指标
你可能会听过这些词:TTFT,TPOT,Throughput, Latency,TPS等术语,我们来看他们分别代表什么意思:
-
• TTFT(Time To First Token)
即首token延迟,指的都是从输入到输出第一个token 的延迟,
在大模型的推理阶段引用了KV Cache,所以会有两个阶段:Prefilling和Decoding阶段,TTFT指的是大模型对prompt完成了KV 缓存的动作,并生成第一个Token的时间 -
• TPOT(Time Per Output Token),
在Decoding阶段,平均每个输出 token 的延迟(不含首个Token) -
• Lantency(延迟)
- • 理论上即从输入到输出最后一个 token 的时间,原则上的计算公式是:Latency = (TTFT) + (TPOT) * (number of tokens);
-
• TPS(Tokens Per Second)
- • 一般指单个请求的每秒token数,有时候也是并发请求的总吞吐量,注意上下文即可。 计算方式是 number of tokens / Latency;
-
• Throughput 吞吐量
- • 如果有并发的时候,多个请求每秒总token数量
2. 大模型性能影响因子
那么哪些因子会影响大模型的性能呢?
它和大模型本身,推理使用的GPU,用了什么框架,prompt的长度,并发量等等都有关系,下面我们具体来看
2.1. 大模型本身
首先我们要看模型的架构是Dense还是MoE。对于Dense架构的,在推理的时候会激活所有参数;对于MoE架构,例如DeepSeek R1,模型本身有671B,但激活的只有37B. 推理速度和激活的参数大小有关;
同时,每一个参数可能会用不同的精度,比如BF16,Int8等等,精度越小推理速度就越快。
私有化部署大模型的性能估计方法

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



