昇腾910B--本地化部署DeepSeek-R1-Distill-Llama-70B

最新推荐文章于 2025-03-12 14:00:16 发布

dxqianx

最新推荐文章于 2025-03-12 14:00:16 发布

阅读量2.6k

点赞数 5

分类专栏： deepseek 本地化部署实施文章标签：云计算人工智能

本文链接：https://blog.youkuaiyun.com/dxqianx/article/details/145580987

版权

deepseek 本地化部署实施专栏收录该内容

1 篇文章

订阅专栏

# 910B昇腾服务器单机部署DeepSeek-R1-Distill-Llama-70B

## 部署前提
- 宿主机操作系统：Ubuntu 22.04@ascend-910b 64位
- 已安装固件与驱动
- 已安装Docker

## 模型下载
- **有网络条件**：访问 [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main) 下载模型。
- **无网络条件**：从 [ModelScope](https://modelscope.cn/models) 下载所需模型。

## 上传模型到服务器
- 文件较大（132GB），建议使用 `rsync` 命令上传至 `/mnt/data/model/DeepSeek-R1-Distill-Llama-70B`。

## 下载模型适配镜像包
- 登录昇腾社区，前往开发资源页面下载适配DeepSeek-R1-Distill-Llama-70B的镜像包。
- 根据GPU型号选择：
  - 1.0.0-800I-A2-py311-openeuler24.03-lts
  - 1.0.0-300I-Duo-py311-openeuler24.03-lts

## 启动运行容器
```bash
docker run -it -d --net=host --shm-size=1g \
    --name <container-name> \
    --device=/dev/davinci_manager \
    --device=/dev/hisi_hdc \
    --device=/dev/devmm_svm \
    --device=/dev/davinci0 \
    --device=/dev/davinci1 \
    --device=/dev/davinci2 \
    --device=/dev/davinci3 \
    --device=/dev/davinci4 \
    --device=/dev/davinci5 \
    --device=/dev/davinci6 \
    --device=/dev/davinci7 \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
    -v /usr/local/sbin:/usr/local/sbin:ro \
    -v /path-to-weights:/path-to-weights:ro \
    mindie:1.0.0-800I-A2-py311-openeuler24.03-lts bash

注意：

• <container-name>：自定义容器名称。

• /path-to-weights：模型放置的实际位置。

• 如果外部服务需要调用模型API端口，需将--net=host修改为-p 18080:18080。

进入容器

docker exec -it ${容器名称} bash

容器中执行

cd $ATB_SPEED_HOME_PATH

此路径包含模型的依赖文件。

服务化推理部署

• 编辑配置文件：

   vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json

• 修改以下参数：

   {
       "ipAddress": "127.0.0.1",  // 外部访问需修改为实际地址
       "managementIpAddress": "127.0.0.2",  // 外部访问需修改为实际地址
       "port": 1025,  // 自定义
       "managementPort": 1026,  // 自定义
       "metricsPort": 1027,  // 自定义
       "npuDeviceIds": [[0,1,2,3]],  // 根据显卡数量修改
       "modelName": "llama",
       "modelWeightPath": "/data/datasets/DeepSeek-R1-Distill-Llama-70B",  // 根据实际路径修改
       "worldSize": 4,  // 根据显卡数量修改
       "openAiSupport": "openai"  // 修改为本地支持
   }

启动模型服务

cd /usr/local/Ascend/mindie/latest/mindie-service/bin
./mindieservice_daemon

等待安装完成，直至显示daemonset success。

测试验证

curl 127.0.0.1:1025/generate -d '{
    "prompt": "What is deep learning?",
    "max_tokens": 32,
    "stream": false,
    "do_sample": true,
    "repetition_penalty": 1.00,
    "temperature": 0.01,
    "top_p": 0.001,
    "top_k": 1,
    "model": "llama"
}'

若有输出结果，则部署成功。

OPENWEB UI 部署

• 需要Python 3.11版本。

• 参照OpenWeb UI GitHub进行界面化展示DeepSeek模型。