算力估算-运行Qwen2.5 32B 要达到2万tokens/s需要多少张昇腾910B卡？

原创

已于 2025-08-08 13:03:47 修改 · 1.6k 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算力估算 #昇腾910B #2万tokens/s

于 2025-08-08 10:03:21 首次发布

要实现 20,000 token/s（20k/s） 的吞吐量，需根据模型量化精度（FP16/INT8）和昇腾910B的实际性能（修正后）重新计算。以下分析基于修正后的核心参数（INT8单卡50-120 token/s、FP16受带宽与计算量约束性能更低），结合模型并行与数据并行的部署策略，给出具体方案和卡数需求。

核心前提修正

模型规模与硬件约束：
- FP16：32B模型权重64GB，需模型并行（单卡64GB显存可容纳，但受带宽限制更显著）。
- INT8：量化后权重32GB，单卡可容纳，但显存带宽（392GB/s）是核心瓶颈，而非容量。
单卡性能修正值（基于计算量与带宽约束）：
- FP16：受更高计算量（约3148亿操作/token）和带宽限制，单卡吞吐量约 25-60 token/s（模型并行下，2卡单元因通信损耗，吞吐量约50-100 token/s）。
- INT8：经算子融合与KV缓存优化，单卡吞吐量 50-120 token/s（典型值80 token/s，数据并行下近似线性扩展）。
目标吞吐量：20,000 token/s。

1. FP16精度方案：模型并行+数据并行，卡数需求激增

关键约束：

模型并行必要性：32B模型FP16权重64GB，需至少1卡（昇腾910B显存64GB）即可承载，但因计算量与带宽限制，单卡性能极低

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

jacky_wxl(微信同号） 喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。