Vllm部署deepseek 单机多卡部署

部署运行你感兴趣的模型镜像

用anaconda  conda环境部署 前提是装好anaconda(在Linux系统中)并且下载模型到自己的指定位置

创建一个conda环境  与系统环境隔离 避免驱动什么的冲突

conda create -n  name python=3.10

激活环境

conda activate name

安装vllm

pip install vllm

然后启动

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model ./path/deepseek_model --port 8000 --tensor-parallel-size 2

CUDA_VISIBLE_DEVICES=0,1 表示让程序看到设备 ID 为 0 和 1 的两个 GPU,同时 #--tensor-parallel-size 2 表示使用 2 个 GPU 进行张量并行计算,以加速推理过程。 #其中./path/deepseek_model 指定模型文件路径,替换为本地自己的,--port 可自定义端口。

测试

调用curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "自己下载模型位置", "prompt": "你好", "max_tokens": 1000, "temperature": 0 }'

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值