用anaconda conda环境部署 前提是装好anaconda(在Linux系统中)并且下载模型到自己的指定位置
创建一个conda环境 与系统环境隔离 避免驱动什么的冲突
conda create -n name python=3.10
激活环境
conda activate name
安装vllm
pip install vllm
然后启动
CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model ./path/deepseek_model --port 8000 --tensor-parallel-size 2
CUDA_VISIBLE_DEVICES=0,1 表示让程序看到设备 ID 为 0 和 1 的两个 GPU,同时 #--tensor-parallel-size 2 表示使用 2 个 GPU 进行张量并行计算,以加速推理过程。 #其中./path/deepseek_model 指定模型文件路径,替换为本地自己的,--port 可自定义端口。
测试
调用curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "自己下载模型位置", "prompt": "你好", "max_tokens": 1000, "temperature": 0 }'
3万+

被折叠的 条评论
为什么被折叠?



