1. 操作步骤
- 该脚本能够自动搜索最优的vLLM服务器参数组合(包括max-num-seqs和max-num-batched-tokens),在满足端到端延迟和前缀缓存命中率等要求的同时,实现吞吐量最大化。
1.1 前提条件
- 克隆 vLLM 并切到目标分支
git clone https://github.com/vllm-project/vllm.git cd vllm # git checkout <your-branch> - 安装运行环境
如果使用 TPU,请激活对应 conda 环境并安装匹配版本的torch、torch_xla。 - 模型准备
若使用自定义模型,确保配置文件放置正确且可访问。
1.2 配置(脚本顶部必须设置)
| 变量 | 说明 | 示例 |
|---|---|---|
BASE |
vLLM 仓库所在目录的绝对路径 | "$HOME" |
MODEL |
Hugging Face 模型名称 |

最低0.47元/天 解锁文章
1066

被折叠的 条评论
为什么被折叠?



