# 910B昇腾服务器单机部署DeepSeek-R1-Distill-Llama-70B
## 部署前提
- 宿主机操作系统:Ubuntu 22.04@ascend-910b 64位
- 已安装固件与驱动
- 已安装Docker
## 模型下载
- **有网络条件**:访问 [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main) 下载模型。
- **无网络条件**:从 [ModelScope](https://modelscope.cn/models) 下载所需模型。
## 上传模型到服务器
- 文件较大(132GB),建议使用 `rsync` 命令上传至 `/mnt/data/model/DeepSeek-R1-Distill-Llama-70B`。
## 下载模型适配镜像包
- 登录昇腾社区,前往开发资源页面下载适配DeepSeek-R1-Distill-Llama-70B的镜像包。
- 根据GPU型号选择:
- 1.0.0-800I-A2-py311-openeuler24.03-lts
- 1.0.0-300I-Duo-py311-openeuler24.03-lts
## 启动运行容器
```bash
docker run -it -d --net=host --shm-size=1g \
--name <container-name> \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
-v /usr/local/sbin:/usr/local/sbin:ro \
-v /path-to-weights:/path-to-weights:ro \
mindie:1.0.0-800I-A2-py311-openeuler24.03-lts bash
注意:
• <container-name>
:自定义容器名称。
• /path-to-weights
:模型放置的实际位置。
• 如果外部服务需要调用模型API端口,需将--net=host
修改为-p 18080:18080
。
进入容器
docker exec -it ${容器名称} bash
容器中执行
cd $ATB_SPEED_HOME_PATH
此路径包含模型的依赖文件。
服务化推理部署
• 编辑配置文件:
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
• 修改以下参数:
{
"ipAddress": "127.0.0.1", // 外部访问需修改为实际地址
"managementIpAddress": "127.0.0.2", // 外部访问需修改为实际地址
"port": 1025, // 自定义
"managementPort": 1026, // 自定义
"metricsPort": 1027, // 自定义
"npuDeviceIds": [[0,1,2,3]], // 根据显卡数量修改
"modelName": "llama",
"modelWeightPath": "/data/datasets/DeepSeek-R1-Distill-Llama-70B", // 根据实际路径修改
"worldSize": 4, // 根据显卡数量修改
"openAiSupport": "openai" // 修改为本地支持
}
启动模型服务
cd /usr/local/Ascend/mindie/latest/mindie-service/bin
./mindieservice_daemon
等待安装完成,直至显示daemonset success
。
测试验证
curl 127.0.0.1:1025/generate -d '{
"prompt": "What is deep learning?",
"max_tokens": 32,
"stream": false,
"do_sample": true,
"repetition_penalty": 1.00,
"temperature": 0.01,
"top_p": 0.001,
"top_k": 1,
"model": "llama"
}'
若有输出结果,则部署成功。
OPENWEB UI 部署
• 需要Python 3.11版本。
• 参照OpenWeb UI GitHub进行界面化展示DeepSeek模型。