Vllm-0.10.1:vllm bench serve参数说明

一、KVM 虚拟机环境

GPU:4张英伟达A6000(48G)

内存:128G

海光Cpu:128核

大模型:DeepSeek-R1-Distill-Qwen-32B

推理框架Vllm:0.10.1

二、测试命令(random

vllm bench serve \
--backend vllm \
--base-url http://127.0.0.1:9400 \
--endpoint /v1/completions \
--dataset-name random \
--model qwen32b \
--tokenizer  /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B \
--seed 12345 \
--random-input-len 2048 \
--random-output-len 2048 \
--num-prompts 16 \
--request-rate 8 \
--metric-percentiles 95,99 \
--trust-remote-code

三、测试结果

和vllm的启动参数关系很大。

 详见《Vllm-0.10.1:通过vllm bench serve测试TTFT、TPOT、ITL、E2EL四个指标》。

四、测试参数说明

 vllm bench serve --help

4.1、基础配置(Backend & Server)

参数

类型

默认值

说明

--backend

str

"vllm"

指定后端服务类型(如 vllm,openai,openai-chat,openai-audio等)

--base-url

str

None

若使用外部 API(如 OpenAI)或自定义 URL,则指定完整的基础地址如 http://host:port。

--host

str

"127.0.0.1"

本地测试推荐用 127.0.0.1 强制 IPv4,避免 localhost 解析为 IPv6。

--port

int

8000

对接的服务端口,默认为 vLLM 的 8000。

--endpoint

str

"/v1/completions"

API 路径,如 /v1/chat/completions 或 /v1/completions)。

4.1.1、openai和vllm的区别

维度

--backend openai

--backend vllm

协议兼容性

模拟 OpenAI API 协议

使用 vLLM 原生 API 格式

请求格式

发送标准 OpenAI JSON 格式

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值