分别以Qwen/Qwen3-4B-Instruct-2507和Qwen/Qwen3-4B-Instruct-2507-FP8进行测试,发现Qwen/Qwen3-4B-Instruct-2507的生成速度反而更快一些。
运行Qwen/Qwen3-4B-Instruct-2507:
docker run -it --rm \
--name vllm \
--gpus all \
-p 8000:8000 \
-v ./local_qwen_model:/root/.cache/huggingface/hub \
vllm/vllm-openai:latest \
--model Qwen/Qwen3-4B-Instruct-2507 \
--port 8000 \
--gpu_memory_utilization 0.7 \
--max_num_seqs 1024 \
--host 0.0.0.0
测试:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "Qwen/Qwen3-4B-Instruct-2507", "messages": [{"role": "user", "content": "你好,请介绍一下自己。"}], "max_tokens": 1000, "temperature": 0.7}'
结果:18.1 tokens/s

运行Qwen/Qwen3-4B-Instruct-2507-FP8的结果:10-14.1 tokens/s,竟然更慢。

M2 Max上生成速度是:68.66 tokens/s,是A100的3倍生成速度。量化与非量化的差异吗?

37

被折叠的 条评论
为什么被折叠?



