Vllm部署deepseek 单机多卡部署

部署运行你感兴趣的模型镜像

用anaconda  conda环境部署 前提是装好anaconda(在Linux系统中)并且下载模型到自己的指定位置

创建一个conda环境  与系统环境隔离 避免驱动什么的冲突

conda create -n  name python=3.10

激活环境

conda activate name

安装vllm

pip install vllm

然后启动

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model ./path/deepseek_model --port 8000 --tensor-parallel-size 2

CUDA_VISIBLE_DEVICES=0,1 表示让程序看到设备 ID 为 0 和 1 的两个 GPU,同时 #--tensor-parallel-size 2 表示使用 2 个 GPU 进行张量并行计算,以加速推理过程。 #其中./path/deepseek_model 指定模型文件路径,替换为本地自己的,--port 可自定义端口。

测试

调用curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "自己下载模型位置", "prompt": "你好", "max_tokens": 1000, "temperature": 0 }'

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

<think>好的,我现在需要帮助用户了解如何在GPU环境下部署vLLM模型。首先,我要回顾用户提供的引用内容,看看里面有没有相关的信息。根据引用[1]、[3]、[4],特别是引用[3]提到了vLLM的分布式部署,包括的情况。引用[1]还提到使用vLLM和Ray实现分布式推理,而引用[4]讨论了服务器下的通信机制,可能与分布式训练有关。 接下来,我需要整理这些信息,分步骤说明部署过程。用户可能需要教程式的指导,所以应该结构清晰,步骤明确。首先,可能涉及环境准备,比如安装vLLM、Ray等。然后是如何启动分布式服务,配置参数,比如GPU数量、模型路径等。此外,可能还需要示例代码来演示如何启动和调用服务。 另外,用户的问题提到了分布式训练,但根据引用内容,vLLM主要是用于推理,而分布式训练可能更涉及DeepSpeed(如引用[2])。需要明确区分训练和推理,但用户可能混淆了这两个概念。所以在回答时,需要指出vLLM主要用于推理,并可能简要提及训练相关的工具如DeepSpeed。 还要注意用户可能遇到的常见问题,比如环境依赖、版本兼容性、网络配置等,需要在注意事项中提到。同时,生成的相关问题应该覆盖部署步骤、优化方法、与类似框架的比较等,以帮助用户扩展知识。 最后,确保回答符合系统指令:使用正确的中文,数学公式用$...$,独立公式用$$...$$,虽然这里可能不需要太数学公式,但如果有性能分析可能需要。同时,引用标记要正确添加在相关段落末尾。</think>### GPU环境下vLLM模型部署教程 #### 1. **环境准备** - **安装依赖** 确保已安装Python≥3.8、PyTorch、CUDA等基础环境,并通过以下命令安装vLLM和Ray: ```bash pip install vllm ray ``` - **模型准备** 下载或转换目标大模型至HuggingFace格式(如`/path/to/model`),支持Llama、GPT等架构[^3]。 #### 2. **分布式服务启动** vLLM基于Ray框架实现分布式推理,部署步骤如下: - **步骤1:启动Ray集群** 在**单机**场景下,执行以下命令初始化Ray: ```bash ray start --head --num-gpus=4 # 假设使用4块GPU ``` 在****场景下,需在其他机器上通过`ray start --address=<主节点IP>:<端口>`加入集群[^1]。 - **步骤2:启动vLLM推理服务** 编写Python脚本启动分布式推理引擎: ```python from vllm import LLM, SamplingParams import ray ray.init("auto") # 自动连接Ray集群 # 初始化分布式模型 llm = LLM(model="/path/to/model", tensor_parallel_size=4) # tensor_parallel_size=GPU数量 # 定义采样参数 sampling_params = SamplingParams(temperature=0.8, max_tokens=200) # 分布式推理示例 prompts = ["AI的未来发展将如何影响人类社会?"] outputs = llm.generate(prompts, sampling_params) print(outputs[0].text) ``` #### 3. **关键参数说明** - `tensor_parallel_size`:GPU数量,控制模型并行度。 - `gpu_memory_utilization`:显存利用率(默认0.9),避免OOM错误。 - `trust_remote_code`:若使用自定义模型需设置为`True`。 #### 4. **性能优化建议** - **批处理(Batching)**:通过动态批处理提高吞吐量,vLLM支持自动合并请求[^1]。 - **量化压缩**:结合FP16或INT8量化减少显存占用。 - **网络优化**:部署时需保证节点间高速网络(如InfiniBand)[^4]。 #### 5. **注意事项** - **版本兼容性**:确保vLLM、Ray、CUDA版本匹配。 - **资源隔离**:在K8s中部署时,需配置GPU资源绑定和网络策略。 - **日志监控**:通过Ray Dashboard实时监控任务状态和资源使用。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值