1 模型下载
可按照此处方法下载预热后的模型,速度较快(推荐artget方式)
https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms
或者从hugging face官方下载。
2 vllm-ascend安装
2.1 使用vllm+vllm-ascend基础镜像
基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest
拉取镜像(v0.7.0.3的正式版本尚未发布)
docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev
启动镜像
QwQ-32B 需要70G以上显存,2张64G的卡
docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/dav

最低0.47元/天 解锁文章
2184

被折叠的 条评论
为什么被折叠?



