Vllm部署deepseek 单机多卡部署

最新推荐文章于 2025-11-25 11:54:11 发布

原创最新推荐文章于 2025-11-25 11:54:11 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #linux #人工智能

部署运行你感兴趣的模型镜像

用anaconda conda环境部署前提是装好anaconda（在Linux系统中）并且下载模型到自己的指定位置

创建一个conda环境与系统环境隔离避免驱动什么的冲突

conda create -n name python=3.10

激活环境

conda activate name

安装vllm

pip install vllm

然后启动

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model ./path/deepseek_model --port 8000 --tensor-parallel-size 2

CUDA_VISIBLE_DEVICES=0,1 表示让程序看到设备 ID 为 0 和 1 的两个 GPU，同时 #--tensor-parallel-size 2 表示使用 2 个 GPU 进行张量并行计算，以加速推理过程。 #其中./path/deepseek_model 指定模型文件路径，替换为本地自己的，--port 可自定义端口。

测试

调用curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "自己下载模型位置", "prompt": "你好", "max_tokens": 1000, "temperature": 0 }'

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值