1.构建镜像
参考上一篇文章:使用Docker容器部署Qwen2-0.5B模型记录-优快云博客
注意这里应该直接在requirement.txt中加上vllm框架,使镜像直接包含vllm
2.启动容器
docker run --runtime nvidia -e CUDA_VISIBLE_DEVICES=1 --privileged=true -itd --shm-size 32g --restart always --name qwen1-8b -p 7710:8000 -v /主机上的模型路径/:/data qwen1.8b:v1
3.进入容器启动vllm
#进入容器
docker exec -it qwen_1.8b bash
#启动vllm部署openai兼容api
python -m vllm --model /data/quantize_awq/qwen-1_8B-awq-4 --tokenizer /data/quantize_awq/qwen-1_8B-awq-4 --max-model-len 8192 --block-size 16 --max-num-seqs 100 --tensor-parallel-size 1 --load-format 'auto' --gpu-memory-utilization 0.2 --kv-cache-dtype 'auto' --served-model-name 'qwen1.8b' --trust-remote-code
这里注意:--served-model-name参数不可取消,否则会导致后面请求不成功,同时,为减小模型推理所占用的显存资源,使用量化后的模型进行推理</

最低0.47元/天 解锁文章
2082

被折叠的 条评论
为什么被折叠?



