使用vllm创建相同模型的多个实例,使用nginx进行负载均衡,提高模型吞吐量

背景

要提高vllm部署的大模型吞吐量,可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手,以下是具体建议:

一、提高 gpu-memory-utilization 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例(默认0.9),当前值0.35预留了过多显存,是吞吐量低的重要原因。

  • 提升空间:合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8(需根据实际显存占用测试),理论上能将单次批处理量提升1-2倍(具体取决于模型大小)。
  • 操作建议
    1. 先逐步提高至0.6,测试是否出现OOM(内存溢出)错误:
      CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \
        --model /home/liuzhiming/.../dir \
        --port 18889 \
        --tensor-parallel-size 1 \
        --max-num-batched-tokens 16384  # 同步增大批处理token上限 \
        --max-num-seqs 512  # 同步增大序列数上限 \
        --gpu-memory-utilization 0.6 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值