使用vLLM多卡部署大模型测试推理性能

原创于 2025-11-27 09:57:43 发布 · 699 阅读

CC 4.0 BY-SA版权

文章标签：

9 篇文章

订阅专栏

当大模型的参数量过大，单张显卡的显存无法装下大模型时，我们不得不考虑使用多卡来部署大模型。vLLM主要通过 Tensor Parallelism (张量并行) 来实现多卡部署，从而解决单卡显存限制。

之前使用vLLM测试过3090和4090两张显卡大模型单卡推理的性能比较：

这里使用vLLM测试下多卡推理场景下3090和4090两张显卡的性能表现。

还是在AI算力租赁平台晨涧云分别租用3090显卡和4090显卡的vLLM云容器，实例配置选择两张显卡进行测试。

选择 Qwen3-14B的模型进行测试，3090和4090 都是单卡24G显存，使用两张显卡进行部署。

让大模型帮忙写个测试脚本，控制部署和推理的参数一致：

执行测试脚本，查看输出结果：

vLLM多卡推理-3090

vLLM多卡推理-4090

3090显卡和4090显卡在多卡模型推理过程中的显存和GPU使用率都比较接近，主要看平均耗时及平均吞吐量两个指标：

Batch Size	指标	双卡 3090	双卡 4090	对比
1	平均耗时(s)	5.65	4.72
1	平均吞吐量(tokens/s)	45.3	54.3	119.9%
4	平均耗时(s)	6.15	4.81
4	平均吞吐量(tokens/s)	166.5	213.0	127.9%
8	平均耗时(s)	6.84	5.01
8	平均吞吐量(tokens/s)	291.9	398.7	136.6%
16	平均耗时(s)	8.28	5.47
16	平均吞吐量(tokens/s)	491.2	748.2	152.3%

从平均耗时来看，4090在1～8的较低并发度下耗时较为稳定，性能接近线性增长，16并发度下面略微衰减；3090在1～8较低并发度下耗时逐步增加，并且在16并发度下耗时明显增大，性能衰减比4090更加明显。
平均吞吐量指标也能说明相应的情况，对比数据可以看出4090和3090在1～16的并发度下面，差异被逐渐拉大，16并发度下面4090的性能是3090的1.5倍左右。