8卡 5880 Ada 并发测试 Deepseek 32B/70B

最新推荐文章于 2025-05-26 16:55:29 发布

赞奇科技Xsuperzone

最新推荐文章于 2025-05-26 16:55:29 发布

阅读量638

点赞数 3

文章标签：服务器人工智能 ai 语言模型 gpu算力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Xsuperzone/article/details/146417060

版权

最近收到不少用户反馈还有什么配置适合企业进行DS本地化部署，本期我们测试8卡NVIDIA RTX 5880 Ada 在 DeepSeek 32B（FP16/FP8)、70B(FP16)中的并发性能，同时也额外测试 8卡 L20 的对比，来看看它们的测试表现。

测试环境：

GPU：8卡 RTX 5880 Ada 48G

CPU：英特尔® 至强® Silver 4314

内存：256GB DDR4 硬盘：3.84TB

数据仅供大家参考：

DeepSeek-R1-Distill-32B FP16

DeepSeek-R1-Distill-32B FP8

DeepSeek-R1-Distill-70B FP16

测试结果：

32B FP16 vs 32B FP8

1.对话问答场景

FP8 相较 FP16 综合提升8%~15%，当并发数越低，提升越大。

在32B FP16和FP8场景中，并发数＜128时，8卡 5880 Ada 的Tokens/s＞17，在高并发情况下的表现优秀。

2.模拟RAG场景

在并发数较低时，FP8相较FP16有一定的提升，当并发数＞64时，提升很小。（并发数低时测试可能存在一定误差）

综上所述，当并发数＜64时，无论是32B FP16 还是 FP8，8卡 5880 Ada 都能很好的支持模拟RAG场景。

32B FP16 vs 70B FP16

1.对话问答场景

当模型大小从32B提升到70B，从上图可以看出两者 Tokens/s 的变化趋势，8卡 5880 Ada 在两个模型中的表现符合预期。

当并发数＜80时，8卡 5880 Ada 的Tokens/s＞13，高并发场景下表现优秀。

2.模拟RAG场景

在模拟RAG场景中，明显可看出70B模型比32B模型的算力需求更大。

32B模型中，并发数＜80时，Tokens/s＞9，高并发模拟RAG场景中表现较优秀。

70B模型中，并发数＜16时，Tokens/s＞6，表现良好。并发数＞32时，稍显缓慢。

额外测试：

8卡 5880 Ada vs 8卡 L20（32B FP8）

我们同时也测试了8卡 L20 在 32B FP8 中的表现，并与8卡 5880 Ada 作比较。

在对话问答场景中，并发数＜64时，两者Tokens/s＞27，表现优秀。8卡 5880 Ada 相较 8卡 L20 综合提升 9%~13%。

测试小结

8卡 5880 Ada 能够很好的支持 32B FP8 和 FP16，不过 FP8 相较 FP16 提升较小，因此建议部署 FP16。
8卡 5880 Ada 能够支持部署 70B FP16，并且在对话问答场景中表现优秀，在模拟RAG场景中，并发数过高会有算力压力。

联系后台可申请体验，或加入赞奇 DeepSeek 应用交流群。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。