A100 vllm运行Qwen3-4B-instruct-2507生成速度有多快?

部署运行你感兴趣的模型镜像

分别以Qwen/Qwen3-4B-Instruct-2507和Qwen/Qwen3-4B-Instruct-2507-FP8进行测试,发现Qwen/Qwen3-4B-Instruct-2507的生成速度反而更快一些。

运行Qwen/Qwen3-4B-Instruct-2507:

docker run -it --rm \
  --name vllm \
  --gpus all \
  -p 8000:8000 \
  -v ./local_qwen_model:/root/.cache/huggingface/hub \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen3-4B-Instruct-2507 \
  --port 8000 \
  --gpu_memory_utilization 0.7 \
  --max_num_seqs 1024 \
  --host 0.0.0.0

测试:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "Qwen/Qwen3-4B-Instruct-2507", "messages": [{"role": "user", "content": "你好,请介绍一下自己。"}], "max_tokens": 1000, "temperature": 0.7}'

结果:18.1 tokens/s

运行Qwen/Qwen3-4B-Instruct-2507-FP8的结果:10-14.1 tokens/s,竟然更慢。

M2 Max上生成速度是:68.66 tokens/s,是A100的3倍生成速度。量化与非量化的差异吗?

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

考虑可再生能源出力不确定性的商业园区用户需求响应策略(Matlab代码实现)内容概要:本文围绕“考虑可再生能源出力不确定性的商业园区用户需求响应策略”展开,结合Matlab代码实现,研究在可再生能源(如风电、光伏)出力具有不确定性的背景下,商业园区如何制定有效的需求响应策略以优化能源调度和提升系统经济性。文中可能涉及不确定性建模(如场景生成与缩减)、优化模型构建(如随机规划、鲁棒优化)以及需求响应机制设计(如价格型、激励型),并通过Matlab仿真验证所提策略的有效性。此外,文档还列举了大量相关的电力系统、综合能源系统优化调度案例与代码资源,涵盖微电网调度、储能配置、负荷预测等个方向,形成一个完整的科研支持体系。; 适合人群:具备一定电力系统、优化理论和Matlab编程基础的研究生、科研人员及从事能源系统规划与运行的工程技术人员。; 使用场景及目标:①学习如何建模可再生能源的不确定性并应用于需求响应优化;②掌握使用Matlab进行商业园区能源系统仿真与优化调度的方法;③复现论文结果或开展相关课题研究,提升科研效率与创新能力。; 阅读建议:建议结合文中提供的Matlab代码实例,逐步理解模型构建与求解过程,重点关注不确定性处理方法与需求响应机制的设计逻辑,同时可参考文档中列出的其他资源进行扩展学习与交叉验证。
提供的引用中未提及使用Triton Inference Server和vLLM部署Qwen3-VL-4B-Instruct的方法。一般来说,使用Triton Inference Server和vLLM部署模型可遵循以下通用思路,但需结合Qwen3-VL-4B-Instruct的具体情况调整: ### 使用vLLM部署 首先要确保环境中已安装vLLM,然后可以参考如下代码示例进行部署: ```python from vllm import LLM, SamplingParams # 初始化LLM llm = LLM(model="hf_mirrors/unsloth/Qwen3-VL-4B-Instruct-bnb-4bit") # 定义采样参数 sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 输入提示 prompts = [ "请介绍一下人工智能的发展趋势。", "如何提高代码的可读性?" ] # 生成输出 outputs = llm.generate(prompts, sampling_params) # 打印输出 for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}") ``` ### 使用Triton Inference Server部署 1. **准备模型仓库**:创建一个目录作为模型仓库,将Qwen3-VL-4B-Instruct模型文件放置其中。 2. **配置模型**:在模型仓库内为Qwen3-VL-4B-Instruct创建一个配置文件,例如`config.pbtxt`,示例配置如下: ```plaintext name: "Qwen3-VL-4B-Instruct" platform: "tensorrt_plan" max_batch_size: 32 input [ { name: "input_ids" data_type: TYPE_INT32 dims: [ -1 ] } ] output [ { name: "output" data_type: TYPE_FP32 dims: [ -1 ] } ] ``` 3. **启动Triton Inference Server**:在命令行中执行以下命令启动Triton Inference Server: ```bash tritonserver --model-repository=/path/to/model_repository ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jacky_wxl(微信同号)

喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值