vllm专题(一):安装-GPU

vLLM 是一个 Python 库,支持以下 GPU 变体。选择您的 GPU 类型以查看供应商特定的说明:
1. NVIDIA CUDA
vLLM 包含预编译的 C++ 和 CUDA(12.1)二进制文件。
2. AMD ROCm
vLLM 支持配备 ROCm 6.3 的 AMD GPU。
注意
此设备没有预构建的 wheel 包,因此您必须使用预构建的 Docker 镜像或从源代码构建 vLLM。
3. Intel XPU
vLLM 初步支持在 Intel GPU 平台上进行基本模型推理和服务。
注意
此设备没有预构建的 wheel 包或镜像,因此您必须从源代码构建 vLLM。

1. 要求

  • 操作系统:Linux
  • Python:3.9 – 3.12
    1. NVIDIA CUDA
  • GPU:计算能力 7.0 或更高(例如 V100、T4、RTX20xx、A100、L4、H100 等)
    2. AMD ROCm
  • GPU:MI200s (gfx90a)、MI300 (gfx942)、Radeon RX 7900 系列 (gfx1100)
  • ROCm 6.3
    3. Intel XPU
  • 支持的硬件:Intel 数据中心 GPU、In
<think>好的,用户遇到了运行vLLM时的命令行参数错误。首先,我需要确认用户的具体命令和报错信息。用户输入的命令是: vllm serve /root/model/QwQ-32B --gpu-memory-utilization 0.95\ > --gpu-memory-utilization 0.95\ > --max-model-len 32768\ > --port 8000\ > --host 0.0.0.0 但报错显示无法识别的参数,比如“0.95--gpu-memory-utilization”,这说明参数格式可能有问题。首先,检查命令中的反斜杠是否导致换行符被错误处理,可能参数之间缺少空格或者反斜杠后面有空格,导致参数被错误拼接。例如,第行的反斜杠后面如果有空格,可能导致下行的参数与前个值连在起,形成无效的选项。 接下来,考虑用户是否正确使用了vLLM的命令行参数。根据vLLM的文档,参数应该紧跟在命令之后,每个参数前需要有空格分隔。例如,正确的格式应该是: vllm serve --model /root/model/QwQ-32B --gpu-memory-utilization 0.95 --max-model-len 32768 --port 8000 --host 0.0.0.0 注意,用户可能遗漏了--model参数,直接指定模型路径而没有选项。所以需要确认是否在serve子命令中,模型路径需要以--model参数开头。 另外,检查参数是否正确拼写,例如--gpu-memory-utilization是否正确,是否重复了两次,这可能是因为换行符处理错误导致参数重复。 最后,建议用户删除反斜杠,将所有参数放在同行,或者正确使用反斜杠换行,确保每个参数独立且正确分隔。同时,确保模型路径前有--model选项,参数之间用空格分开,避免粘连。这样应该能解决unrecognized arguments的错误。</think>你的命令存在**参数格式错误**,导致vLLM无法识别参数。以下是分步解决方案: --- ### **错误原因分析** 1. **参数粘连问题**:反斜杠`\`在Linux中用于换行,但你的命令中反斜杠后直接回车,导致参数与数值粘连。例如: ```bash --gpu-memory-utilization 0.95\ > --gpu-memory-utilization 0.95 ``` 实际解析为`0.95--gpu-memory-utilization`,触发错误。 2. **参数顺序问题**:模型路径`/root/model/QwQ-32B`需要放在`serve`子命令之后,且必须用`--model`显式声明。 --- ### **修正后的命令** ```bash vllm serve \ --model /root/model/QwQ-32B \ --gpu-memory-utilization 0.95 \ --max-model-len 32768 \ --port 8000 \ --host 0.0.0.0 ``` --- ### **关键修改说明** 1. **显式声明`--model`参数**:模型路径必须通过`--model`指定 2. **规范换行符使用**:反斜杠`\`后直接换行,确保参数间空格分隔 3. **删除重复参数**:原命令中重复的`--gpu-memory-utilization`被合并 --- ### **参数解释** | 参数 | 作用 | |------|------| | `--model` | 指定模型路径(必填项) | | `--gpu-memory-utilization` | 显存利用率阈值(0.95=95%) | | `--max-model-len` | 支持的最大上下文长度 | | `--port` | 服务监听端口 | | `--host` | 绑定IP地址(0.0.0.0表示允许外部访问) | --- ### **验证方法** 执行后若看到类似以下输出即为成功: ```bash INFO: Started server process [12345] INFO: Waiting for application startup... INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI专题精讲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值