自然语言处理:第一百零三章 私有化部署DeepSeek等大模型的性能估计

私有化部署大模型的性能估计方法

本人项目地址大全:Victor94-king/NLP__ManVictor: 优快云 of ManVictor


写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!


如果你也在这波DeepSeek R1私有化部署的浪潮里,你的老板可能会让你预估下部署一个XX版本的模型需要什么样的硬件资源,TPS是多少。为此,你也许会上网搜索各种测试,你可能会看到这样的图:

图片

这些测评基本上都是机构或者网友基于自己的机器测出来的值,有没有什么方法能够让我们快速估计出一个值作为整体的考量,即使它没有那么精准?

今天,我会带大家一起梳理一下

    1. 大模型推理的性能指标有哪些
    1. 大模型推理的性能和什么相关
    1. 如何快速通过已有的信息,估计出大模型的理论推理性能极限

1. 大模型推理的性能指标

你可能会听过这些词:TTFT,TPOT,Throughput, Latency,TPS等术语,我们来看他们分别代表什么意思:

  • • TTFT(Time To First Token)
    即首token延迟,指的都是从输入到输出第一个token 的延迟,
    在大模型的推理阶段引用了KV Cache,所以会有两个阶段:Prefilling和Decoding阶段,TTFT指的是大模型对prompt完成了KV 缓存的动作,并生成第一个Token的时间

  • • TPOT(Time Per Output Token),
    在Decoding阶段,平均每个输出 token 的延迟(不含首个Token)

  • • Lantency(延迟)

    • • 理论上即从输入到输出最后一个 token 的时间,原则上的计算公式是:Latency = (TTFT) + (TPOT) * (number of tokens);
  • • TPS(Tokens Per Second)

    • • 一般指单个请求的每秒token数,有时候也是并发请求的总吞吐量,注意上下文即可。 计算方式是 number of tokens / Latency;
  • • Throughput 吞吐量

    • • 如果有并发的时候,多个请求每秒总token数量

2. 大模型性能影响因子

那么哪些因子会影响大模型的性能呢?

它和大模型本身,推理使用的GPU,用了什么框架,prompt的长度,并发量等等都有关系,下面我们具体来看

2.1. 大模型本身

首先我们要看模型的架构是Dense还是MoE。对于Dense架构的,在推理的时候会激活所有参数;对于MoE架构,例如DeepSeek R1,模型本身有671B,但激活的只有37B. 推理速度和激活的参数大小有关;

同时,每一个参数可能会用不同的精度,比如BF16,Int8等等,精度越小推理速度就越快。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼城周杰伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值