一、KVM 虚拟机环境
GPU:4张英伟达A6000(48G)
内存:128G
海光Cpu:128核
大模型:DeepSeek-R1-Distill-Qwen-32B
推理框架Vllm:0.10.1
二、测试命令(random )
vllm bench serve \
--backend vllm \
--base-url http://127.0.0.1:9400 \
--endpoint /v1/completions \
--dataset-name random \
--model qwen32b \
--tokenizer /mnt/data/models/DeepSeek-R1-Distill-Qwen-32B \
--seed 12345 \
--random-input-len 2048 \
--random-output-len 2048 \
--num-prompts 16 \
--request-rate 8 \
--metric-percentiles 95,99 \
--trust-remote-code
三、测试结果

和vllm的启动参数关系很大。
详见《Vllm-0.10.1:通过vllm bench serve测试TTFT、TPOT、ITL、E2EL四个指标》。
四、测试参数说明
vllm bench serve --help

4.1、基础配置(Backend & Server)
| 参数 |
类型 |
默认值 |
说明 |
| --backend |
str |
"vllm" |
指定后端服务类型(如 vllm,openai,openai-chat,openai-audio等) |
| --base-url |
str |
None |
若使用外部 API(如 OpenAI)或自定义 URL,则指定完整的基础地址如 http://host:port。 |
| --host |
str |
"127.0.0.1" |
本地测试推荐用 127.0.0.1 强制 IPv4,避免 localhost 解析为 IPv6。 |
| --port |
int |
8000 |
对接的服务端口,默认为 vLLM 的 8000。 |
| --endpoint |
str |
"/v1/completions" |
API 路径,如 /v1/chat/completions 或 /v1/completions)。 |
4.1.1、openai和vllm的区别
| 维度 |
--backend openai |
--backend vllm |
| 协议兼容性 |
模拟 OpenAI API 协议 |
使用 vLLM 原生 API 格式 |
| 请求格式 |
发送标准 OpenAI JSON 格式 |

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



