8卡 5880 Ada 并发测试 Deepseek 32B/70B

最近收到不少用户反馈还有什么配置适合企业进行DS本地化部署,本期我们测试8卡NVIDIA RTX 5880 Ada 在 DeepSeek 32B(FP16/FP8)、70B(FP16)中的并发性能,同时也额外测试 8卡 L20 的对比,来看看它们的测试表现。

测试环境:

GPU:8卡 RTX 5880 Ada 48G

CPU:英特尔® 至强® Silver 4314

内存:256GB DDR4 硬盘:3.84TB

数据仅供大家参考:

DeepSeek-R1-Distill-32B FP16

DeepSeek-R1-Distill-32B FP8

DeepSeek-R1-Distill-70B FP16

 

测试结果:

32B FP16 vs 32B FP8

1.对话问答场景

FP8 相较 FP16 综合提升8%~15%,当并发数越低,提升越大。

在32B FP16和FP8场景中,并发数<128时,8卡 5880 Ada 的Tokens/s>17,在高并发情况下的表现优秀。

2.模拟RAG场景

在并发数较低时,FP8相较FP16有一定的提升,当并发数>64时,提升很小。(并发数低时测试可能存在一定误差)

综上所述,当并发数<64时,无论是32B FP16 还是 FP8,8卡 5880 Ada 都能很好的支持模拟RAG场景。

32B FP16 vs 70B FP16

1.对话问答场景

当模型大小从32B提升到70B,从上图可以看出两者 Tokens/s 的变化趋势,8卡 5880 Ada 在两个模型中的表现符合预期。

并发数<80时,8卡 5880 Ada 的Tokens/s>13,高并发场景下表现优秀。

2.模拟RAG场景

在模拟RAG场景中,明显可看出70B模型比32B模型的算力需求更大。

32B模型中,并发数<80时,Tokens/s>9,高并发模拟RAG场景中表现较优秀。

70B模型中,并发数<16时,Tokens/s>6,表现良好。并发数>32时,稍显缓慢。

额外测试:

8卡 5880 Ada vs 8卡 L20(32B FP8)

我们同时也测试了8卡 L20 在 32B FP8 中的表现,并与8卡 5880 Ada 作比较。

在对话问答场景中,并发数<64时,两者Tokens/s>27,表现优秀。8卡 5880 Ada 相较 8卡 L20 综合提升 9%~13%

测试小结

  1. 8卡 5880 Ada 能够很好的支持 32B FP8 和 FP16,不过 FP8 相较 FP16 提升较小,因此建议部署 FP16
  2. 8卡 5880 Ada 能够支持部署 70B FP16,并且在对话问答场景中表现优秀,在模拟RAG场景中,并发数过高会有算力压力。

联系后台可申请体验,或加入赞奇 DeepSeek 应用交流群

### DeepSeek 32B 和 70B 模型的区别对比 #### 参数规模与硬件需求 DeepSeek 32B 版本拥有更大的参数量,能够处理更为复杂的任务,在代码生成、复杂问答和知识推理方面表现出色。相比之下,70B 版本进一步扩展了这一优势,不仅具备更高的参数数量,还特别针对高级AI助手、科研分析和数据挖掘进行了优化[^1]。 对于硬件配置而言,由于70B模型的庞大体积及其对计资源的需求远超32B版本,因此部署70B通常需要更强大的GPU支持以及更多的显存容量。例如,为了有效运行70B模型,推荐至少配备RTX 3090或A100级别的高端图形处理器,并确保有足够的显存空间来承载如此大规模的神经网络结构[^4]。 #### 应用场景适应性 当涉及到具体应用场景时,32B更适合那些寻求强大推理能和高效性能平衡的企业和个人开发者;而70B则面向更高层次的研究机构和技术前沿探索者,提供无与伦比的数据处理深度和广度。这意味着如果目标是在特定领域内实现最尖端的技术突破或是处理极其庞大的数据集,则应优先考虑采用70B版本。 ```python # Python伪代码展示如何加载不同大小的预训练模型 from transformers import AutoModelForCausalLM, AutoTokenizer def load_model(model_size="32B"): model_name = f"deepseek-{model_size}" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) return model, tokenizer # 加载32B模型 model_32b, tokenizer_32b = load_model("32B") # 加载70B模型(假设环境已满足相应硬件条件) model_70b, tokenizer_70b = load_model("70B") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值