使用vllm创建相同模型的多个实例，使用nginx进行负载均衡，提高模型吞吐量

GhostintheCode

已于 2025-07-25 14:34:53 修改

阅读量485

点赞数 12

CC 4.0 BY-SA版权

文章标签： nginx 负载均衡语言模型

于 2025-07-25 14:17:54 首次发布

本文链接：https://blog.youkuaiyun.com/GhostintheCode/article/details/149629624

背景

要提高vllm部署的大模型吞吐量，可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手，以下是具体建议：

一、提高 `gpu-memory-utilization` 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例（默认0.9），当前值0.35预留了过多显存，是吞吐量低的重要原因。

提升空间：合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8（需根据实际显存占用测试），理论上能将单次批处理量提升1-2倍（具体取决于模型大小）。

操作建议：

先逐步提高至0.6，测试是否出现OOM（内存溢出）错误：

CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \
  --model /home/liuzhiming/.../dir \
  --port 18889 \
  --tensor-parallel-size 1 \
  --max-num-batched-tokens 16384  # 同步增大批处理token上限 \
  --max-num-seqs 512  # 同步增大序列数上限 \
  --gpu-memory-utilization 0.6