vllm的部署和使用

部署运行你感兴趣的模型镜像

conda create -n cosyvoice python=3.10.9 cudnn=9.1.1.17 nvidia/label/cuda-12.1.1::cuda-toolkit ffmpeg x264

conda install -c conda-forge gcc_linux-64=12

pip install ninja

pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 xformers==0.0.27.post2 --index-url https://download.pytorch.org/whl/cu121

pip install vllm==0.6.6 transformers==4.46 modelscope==1.20.1 

qwen2.5模型下载

from modelscope import snapshot_download

# Downloading model checkpoint to a local dir model_dir
# model_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct')
# model_dir = snapshot_download('Qwen/Qwen2.5-7B-Instruct')
# model_dir = snapshot_download('Qwen/Qwen2.5-32B-Instruct')
# model_dir = snapshot_download('Qwen/Qwen2.5-72B-Instruct')
model_dir = snapshot_download('Qwen/Qwen2.5-1.5B-Instruct')
 

 vllm中文文档:https://vllm.hyper.ai/

您可能感兴趣的与本文相关的镜像

PyTorch 2.8

PyTorch 2.8

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

<think> 我们参考了站内引用中关于vllm部署测试的相关内容。根据引用[1],vllm部署需要从基础环境搭建开始,包括Docker构建运行容器,安装vllm库,以及启动API服务的详细步骤。引用[2]提到在部署模型前需要下载模型,并介绍了在国内使用魔搭社区下载模型的方法。引用[3]强调了部署后的连接性测试,以验证服务是否正常运行。引用[4]则给出了一个具体的单机多卡部署命令示例。 根据这些信息,我们将vllm部署测试方法整理如下: ### vllm部署方法 1. **环境准备**: - 确保系统已安装Docker(参考[^1])。 - 安装vllm库:`pip install vllm`(引用[^1])。 2. **模型下载**: - 使用魔搭社区(modelscope)搜索并下载所需模型(引用[^2])。 - 示例:搜索`qwen3`,根据参数量、量化版本提交者选择合适的模型。 3. **启动API服务**: - 单机单卡部署(默认): ```bash python -m vllm.entrypoints.openai.api_server --model /path/to/model ``` - 单机多卡部署(如使用2张GPU): ```bash CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model /path/to/model --tensor-parallel-size 2 ``` (引用[^4]) ### vllm测试方法 1. **连接性测试**(引用[^3]): - 检查服务进程是否正常运行。 - 验证API端口(默认8000)是否暴露。 - 确认模型加载完成。 - 检查认证配置(如有)。 - 确保网络策略允许访问。 2. **API请求测试**: - 使用curl命令测试接口: ```bash curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/path/to/model", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0 }' ``` - 预期返回包含生成文本的JSON响应。 3. **功能验证**: - 根据模型功能设计测试用例,例如文本生成、Embedding计算等。 - 验证生成结果是否符合预期。 §§相关问题§§ 1. 如何解决vllm部署中的端口冲突问题? 2.vllm中如何加载多个模型? 3. vllm支持哪些量化方法? </think>根据引用内容,我将系统介绍vLLM部署测试方法,分为以下步骤: ### vLLM部署方法 1. **环境准备** 安装Docker环境(推荐)并配置NVIDIA驱动,确保GPU可用(引用[^1]): ```bash # 安装vLLM核心库 pip install vllm ``` 2. **模型下载** 通过魔搭社区获取模型(引用[^2]): ```bash # 示例:下载Qwen模型 modelscope download qwen/Qwen-7B-Chat ``` 3. **启动API服务** - 单卡部署: ```bash python -m vllm.entrypoints.openai.api_server --model ./qwen-7b-chat ``` - **多卡部署**(引用[^4]): ```bash CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server \ --model ./deepseek_model \ --port 8000 \ --tensor-parallel-size 2 # 使用2张GPU ``` ### vLLM连接性测试 验证服务可用性(引用[^3]): ```bash curl http://localhost:8000/v1/models # 预期返回:{"object":"list","data":[{"id":"model_name"}]} ``` ### 功能测试示例 1. **文本生成测试**: ```bash curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen-7b-chat", "prompt": "深圳的著名景点有", "max_tokens": 100 }' ``` 2. **Embedding测试**: ```bash curl http://localhost:8000/v1/embeddings \ -H "Content-Type: application/json" \ -d '{ "model": "embedding_model", "input": "自然语言处理" }' ``` ### 常见问题排查 | 问题现象 | 解决方案 | |---------|----------| | 端口无法访问 | 检查`--port`参数防火墙设置 | | GPU未识别 | 验证`CUDA_VISIBLE_DEVICES`设备驱动 | | 模型加载失败 | 检查模型路径磁盘空间(引用[^3]) | | OOM错误 | 减少`--tensor-parallel-size`或使用量化模型 | > **部署建议**:生产环境推荐使用Docker容器化部署,可通过`docker run --gpus all -p 8000:8000 vllm/vllm-openai`快速启动(引用[^1])。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会发paper的学渣

您的鼓励和将是我前进的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值