背景
要提高vllm部署的大模型吞吐量,可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手,以下是具体建议:
一、提高 gpu-memory-utilization
的效果与操作
gpu-memory-utilization
控制vllm预分配的GPU内存比例(默认0.9),当前值0.35预留了过多显存,是吞吐量低的重要原因。
- 提升空间:合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8(需根据实际显存占用测试),理论上能将单次批处理量提升1-2倍(具体取决于模型大小)。
- 操作建议:
- 先逐步提高至0.6,测试是否出现OOM(内存溢出)错误:
CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \ --model /home/liuzhiming/.../dir \ --port 18889 \ --tensor-parallel-size 1 \ --max-num-batched-tokens 16384 # 同步增大批处理token上限 \ --max-num-seqs 512 # 同步增大序列数上限 \ --gpu-memory-utilization 0.6
- 先逐步提高至0.6,测试是否出现OOM(内存溢出)错误: