昇腾大模型推理解决方案MindIE部署

原创已于 2024-09-20 16:47:45 修改 · 1.2w 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-09-20 16:47:09 首次发布

人工智能同时被 2 个专栏收录

21 篇文章

订阅专栏

昇腾AI

20 篇文章

订阅专栏

MindIE大模型推理套件

MindIE（Mind Inference Engine，昇腾推理引擎）是华为公司针对AI全场景推出的整体解决方案，包含丰富的推理加速套件。通过开放各层次AI能力，支撑客户多样化的AI业务需求，使能百模千态，释放昇腾设备的澎湃算力。向上支持多种主流AI框架，向下服务昇腾AI处理器，提供多层次编程接口，帮助用户快速构建基于昇腾平台的推理业务。昇腾推理引擎，基于昇腾硬件的运行加速、调试调优、快速迁移部署的高性能深度学习推理框架，分层开放满足各类需求，统一接口使能极简开发，沉淀能力构筑极致性能。

官方地址：MindIE-昇腾社区 (hiascend.com)

运行硬件环境要求：

推理服务器	Atlas 800I A2推理产品
加速卡	Atlas 300I Duo 推理卡+Atlas 800 推理服务器（型号：3000）

一、准备数据以及启动docker环境

1.1 下拉docker

镜像地址：镜像仓库网

查看最新的mindie的镜像：

参考上面的连接进行docker下拉：

举个例子，拉取docker：

docker pull swr.cn-central-221.ovaijisuan.com/wh-aicc-fae/mindie-ascend_24.1.rc2-cann_8.0.t13-py_3.10-ubuntu_22.04-aarch64:v1.0.t59.03 （其中swr.cn-central-221.ovaijisuan.com/wh-aicc-fae/mindie-ascend_24.1.rc2-cann_8.0.t13-py_3.10-ubuntu_22.04-aarch64:v1.0.t59.03为你选择的docker镜像）

创建容器并启动

docker run -itd --ipc=host --network=host --name mindie \

--privileged \

-p 1025:1025 \

--device=/dev/davinci0 \

--device=/dev/davinci1 \

--device=/dev/davinci2 \

--device=/dev/davinci3 \

--device=/dev/davinci4 \

--device=/dev/davinci5 \

--device=/dev/davinci6 \

--device=/dev/davinci7 \

--device=/dev/davinci_manager \

--device=/dev/devmm_svm \

--device=/dev/hisi_hdc \

-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \

-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \

-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \

-v /usr/local/sbin/:/usr/local/sbin/ \

-v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf \

-v /var/log/npu/slog/:/var/log/npu/slog \

-v /var/log/npu/profiling/:/var/log/npu/profiling \

-v /var/log/npu/dump/:/var/log/npu/dump \

-v /var/log/npu/:/usr/slog \

-v /home/:/home \

d07bfd46c4fa #这个是镜像的id

注：其中卡的id可根据自己的环境进行修改。

查看已创建的容器 docker ps

启动容器并进入：

docker exec -it -u 0 2c5 /bin/bash

备注：不同的版本显示不一样的环境，可根据自己所选的环境查看相关的mindie版本。

二、Qwen1.5 7B推理测试

2.1下载到modelscope社区下载Qwen1.5 7B Chat的模型

ModelScope：魔搭社区

下载模型及相关文件

启动python终端：

Python

依次输入如下命令。

from modelscope import snapshot_download

model_dir = snapshot_download('qwen/Qwen1.5-7B-Chat',cache_dir='/home')

如果modelscope没安装，记得先pip安装，cache_dir表示会把模型文件下载到该路径下。

注：如果模型下载报错，请继续执行download操作。

2.2修改下载的模型配置文件

进入/home/qwen/Qwen1___5-7B-Chat，编辑目录下的config.json 修改成"torch_dtype": "float16"

2.3执行推理性能测试

执行如下命令切换到mindie代码仓目录

cd /usr/local/Ascend/atb-models/tests/modeltest

安装下依赖：pip install –r requirements.txt

执行如下命令进行推理性能测试。具体参数请根据实际修改。

bash run.sh pa_fp16 performance [[512,512]] 16 qwen /home/qwen/Qwen1___5-7B-Chat 2

参数说明：

[[512,512]]：输入输出长度

16：batchsize大小

qwen：模型名称

/home/qwen/Qwen1___5-7B-Chat 2:权重所在目录

2：npu卡数量

测试结果存放在回显提示路径：

/usr/local/Ascend/atb-models/tests /tests/modeltest/result/

注：性能测试或者是精度测试可参考：/usr/local/Ascend/atb-models/readme.md文件或至少/usr/local/Ascend/atb-models/test/readme.md

2.4执行推理测试

切换到mindie-server所在目录。

cd /usr/local/Ascend/mindie/latest/mindie-service/

修改config.json文件中的如下内容。

vim conf/config.json

步骤2、启动mindie-server。

cd bin

./mindieservice_daemon

回显提示如下说明服务启用成功：

注：如果启动报错，可以查看/usr/local/Ascend/mindie/1.*/mindie-service/logs下的log文件。

步骤3、调用接口

使用curl调用接口(示例一)：


time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{

    "prompt": "我有五天假期，我想去海南玩，请给我一个攻略",

    "max_tokens": 512,

    "repetition_penalty": 1.03,

    "presence_penalty": 1.2,

    "frequency_penalty": 1.2,

    "temperature": 0.5,

    "top_k": 10,

    "top_p": 0.95,

    "stream": false

}' http://127.0.0.1:1025/generate  #其中127.0.0.1以实际ip地址为准

使用curl调用接口(示例二)：


time curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{

 "model": "qwen",

 "messages": [{

  "role": "user",

  "content": "我有五天假期，我想去海南玩，请给我一个攻略"

 }],

 "max_tokens": 512,

 "presence_penalty": 1.03,

 "frequency_penalty": 1.0,

 "seed": null,

 "temperature": 0.5,

 "top_p": 0.95,

 "stream": false

}' http://127.0.0.1:1025/v1/chat/completions     #其中127.0.0.1以实际ip地址为准

使用curl调用接口(示例三)：


curl -H "Accept: application/json" -H "Content-type: application/json" -X POST -d '{

 "model": "qwen",

 "messages": [{

     "role": "system",

     "content": "You are a student who is good at math."

},

{

  "role": "user",

  "content": "事业单位职工食堂食材采购资金部分来自职工福利基金补助，适用《政府采购法》吗?"

 }],

 "max_tokens": 512,

 "presence_penalty": 1.03,

 "frequency_penalty": 1.0,

 "seed": null,

 "temperature": 0.5,

 "top_p": 0.95,

 "stream": true

}' http://127.0.0.1:1025/v1/chat/completions #其中127.0.0.1以实际ip地址为准