昇腾910B--本地化部署DeepSeek-R1-Distill-Llama-70B

# 910B昇腾服务器单机部署DeepSeek-R1-Distill-Llama-70B

## 部署前提
- 宿主机操作系统:Ubuntu 22.04@ascend-910b 64位
- 已安装固件与驱动
- 已安装Docker

## 模型下载
- **有网络条件**:访问 [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main) 下载模型。
- **无网络条件**:从 [ModelScope](https://modelscope.cn/models) 下载所需模型。

## 上传模型到服务器
- 文件较大(132GB),建议使用 `rsync` 命令上传至 `/mnt/data/model/DeepSeek-R1-Distill-Llama-70B`。

## 下载模型适配镜像包
- 登录昇腾社区,前往开发资源页面下载适配DeepSeek-R1-Distill-Llama-70B的镜像包。
- 根据GPU型号选择:
  - 1.0.0-800I-A2-py311-openeuler24.03-lts
  - 1.0.0-300I-Duo-py311-openeuler24.03-lts

## 启动运行容器
```bash
docker run -it -d --net=host --shm-size=1g \
    --name <container-name> \
    --device=/dev/davinci_manager \
    --device=/dev/hisi_hdc \
    --device=/dev/devmm_svm \
    --device=/dev/davinci0 \
    --device=/dev/davinci1 \
    --device=/dev/davinci2 \
    --device=/dev/davinci3 \
    --device=/dev/davinci4 \
    --device=/dev/davinci5 \
    --device=/dev/davinci6 \
    --device=/dev/davinci7 \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \
    -v /usr/local/sbin:/usr/local/sbin:ro \
    -v /path-to-weights:/path-to-weights:ro \
    mindie:1.0.0-800I-A2-py311-openeuler24.03-lts bash

注意:

<container-name>:自定义容器名称。

/path-to-weights:模型放置的实际位置。

• 如果外部服务需要调用模型API端口,需将--net=host修改为-p 18080:18080

进入容器

docker exec -it ${容器名称} bash

容器中执行

cd $ATB_SPEED_HOME_PATH

此路径包含模型的依赖文件。

服务化推理部署

• 编辑配置文件:

   vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json

• 修改以下参数:

   {
       "ipAddress": "127.0.0.1",  // 外部访问需修改为实际地址
       "managementIpAddress": "127.0.0.2",  // 外部访问需修改为实际地址
       "port": 1025,  // 自定义
       "managementPort": 1026,  // 自定义
       "metricsPort": 1027,  // 自定义
       "npuDeviceIds": [[0,1,2,3]],  // 根据显卡数量修改
       "modelName": "llama",
       "modelWeightPath": "/data/datasets/DeepSeek-R1-Distill-Llama-70B",  // 根据实际路径修改
       "worldSize": 4,  // 根据显卡数量修改
       "openAiSupport": "openai"  // 修改为本地支持
   }

启动模型服务

cd /usr/local/Ascend/mindie/latest/mindie-service/bin
./mindieservice_daemon

等待安装完成,直至显示daemonset success

测试验证

curl 127.0.0.1:1025/generate -d '{
    "prompt": "What is deep learning?",
    "max_tokens": 32,
    "stream": false,
    "do_sample": true,
    "repetition_penalty": 1.00,
    "temperature": 0.01,
    "top_p": 0.001,
    "top_k": 1,
    "model": "llama"
}'

若有输出结果,则部署成功。

OPENWEB UI 部署

• 需要Python 3.11版本。

• 参照OpenWeb UI GitHub进行界面化展示DeepSeek模型。

### 昇腾910B--本地化离线部署DeepSeek-R1-Distill-LQwen-32B #### 环境准备 为了成功完成昇腾910B上的DeepSeek-R1-Distill-LQwen-32B模型的本地化离线部署,需先准备好相应的硬件和软件环境。确保拥有两块V100-32GB显卡用于加速计算过程[^1]。 #### 安装依赖库 安装必要的Python包和其他依赖项来支持模型加载与推理操作。这通常涉及设置虚拟环境并安装特定版本的PyTorch或其他框架组件。 ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 ``` #### 下载预训练模型权重文件 访问Hugging Face平台下载对应于`DeepSeek-R1-Distill-LQwen-32B`的大规模语言模型参数文件,并将其存储至指定目录下以便后续调用。 #### 配置API接口服务端口映射 通过修改配置文件或命令行选项设定HTTP RESTful API监听地址为`http://127.0.0.1:1025/generate`,允许外部程序发起请求获取生成文本结果[^3]。 #### 测试验证 利用curl工具向已启动的服务发送POST请求携带JSON格式的数据体作为输入提示词,观察返回的内容是否符合预期标准: ```json { "prompt": "What is deep learning?", "max_tokens": 32, "stream": false, "do_sample": true, "repetition_penalty": 1.00, "temperature": 0.01, "top_p": 0.001, "top_k": 1, "model": "distill-lqwen" } ``` 执行如下命令进行实际测试: ```bash curl http://127.0.0.1:1025/generate \ -d '{"prompt":"What is deep learning?","max_tokens":32,"stream":false,"do_sample":true,"repetition_penalty":1.00,"temperature":0.01,"top_p":0.001,"top_k":1,"model":"distill-lqwen"}' ``` 考虑到该模型具有较大的参数量,在处理较为复杂的自然语言理解任务时可能会遇到较高的延迟情况;但对于追求高质量输出而非即时性的应用场景而言仍然是合适的选择[^2]。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值