vLLM大模型推理场景显卡性能实测

部署运行你感兴趣的模型镜像

之前使用Ollama基于顺序调用的场景比较了3090和4090的显卡性能:

Ollama大模型推理场景显卡性能比较

同时,又基于3090显卡比较了OllamavLLM在顺序调用和多并发推理场景下的性能差异:

Ollama和vLLM大模型推理性能比较

这里再使用vLLM测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。

在GPU算力租用平台 晨涧云 分别租用3090显卡和4090显卡的vLLM云容器进行测试。

大模型选择

选择 Qwen3的模型进行测试,考虑到都是24GB的显存,选择的是FP16精度的qwen3:8b模型进行测试。

借助DeepSeek 生成测试脚本,调整脚本控制变量:

  • 使用复杂度近似的N个prompts;

  • MAX_TOKENS配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;

  • 选择[1, 4, 8, 16] 4种BATCH_SIZES测试不同并发度下的性能表现;

  • 每轮测试执行3次推理,指标取平均;

  • 同时需要模型预热,消除第一次推理响应延时过大的问题。

然后执行推理性能测试脚本,查看输出结果。

3090推理性能

4090推理性能

测试结果解释

  • Batch Size:一次推理调用的并发prompt数量

  • 平均耗时 (s):多次推理平均响应时长

  • 平均吞吐量 (tokens/s):多次推理平均Token生成速度

  • 平均显存 (MB):多次推理平均显存使用量

  • 平均GPU使用率(%):多次推理平均GPU使用率

3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,主要看平均耗时平均吞吐量两个指标:

Batch SizeRTX 3090RTX 4090对比
1平均耗时(s)5.444.61
1平均吞吐量(tokens/s)47.1055.60118.0%
4平均耗时(s)5.614.87
4平均吞吐量(tokens/s)182.70210.40115.2%
8平均耗时(s)5.824.94
8平均吞吐量(tokens/s)351.90414.50117.8%
16平均耗时(s)6.425.13
16平均吞吐量(tokens/s)638.40798.50125.1%

1~8并发度场景下,3090和4090的推理性能均保持稳定,4090比3090高17%左右;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值