XiaoMi/mace项目基础使用指南：从模型转换到部署实战-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00400/article/details/148507921

XiaoMi/mace项目基础使用指南：从模型转换到部署实战

mace MACE is a deep learning inference framework optimized for mobile heterogeneous computing platforms. 项目地址: https://gitcode.com/gh_mirrors/ma/mace

前言

XiaoMi/mace是一个专为移动端和嵌入式设备优化的深度学习推理框架，支持多种硬件加速（CPU/GPU/DSP/APU）。本文将详细介绍如何使用mace框架完成从模型转换到部署的全流程操作，帮助开发者快速上手这一高效推理工具。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

已安装Bazel构建工具
Python 3.6或更高版本
对于Android设备部署，需要配置好ADB工具
根据目标平台安装相应的工具链（如ARM交叉编译工具链）

快速体验：运行示例模型

1. 获取模型资源

我们以mobilenet-v2模型为例，展示完整的运行流程：

# 获取示例模型（假设已获取模型资源）
cd /path/to/your/workspace

2. 模型转换

mace提供了便捷的转换工具，将原始模型转换为mace格式：

python tools/converter.py convert \
    --config=/path/to/mobilenet-v2/mobilenet-v2.yml

转换过程会完成以下工作：

模型格式转换
算子优化
权重数据重组
生成适配目标硬件的中间表示

3. 运行模型

转换完成后，可以直接在目标设备上运行：

# 基础运行
python tools/converter.py run \
    --config=/path/to/mobilenet-v2/mobilenet-v2.yml

# 性能测试（运行100次取平均）
python tools/converter.py run \
    --config=/path/to/mobilenet-v2/mobilenet-v2.yml \
    --round=100

# 精度验证（与原始框架对比）
python tools/converter.py run \
    --config=/path/to/mobilenet-v2/mobilenet-v2.yml \
    --validate

自定义模型部署全流程

1. 模型准备

mace支持多种框架的模型转换：

TensorFlow模型

准备冻结后的.pb文件
建议使用Graph Transform Tool优化计算图

Caffe模型

需要准备.prototxt和.caffemodel文件
对于旧版Caffe模型，需先升级：

$CAFFE_ROOT/build/tools/upgrade_net_proto_text old.prototxt new.prototxt
$CAFFE_ROOT/build/tools/upgrade_net_proto_binary old.caffemodel new.caffemodel

ONNX模型

准备.onnx文件
建议使用ONNX优化工具预处理：

python tools/onnx_optimizer.py model.onnx model_opt.onnx

2. 编写部署配置文件

部署配置文件采用YAML格式，关键配置项包括：

library_name: custom_model  # 生成的库名称
target_abis: [arm64-v8a]   # 目标ABI
model_graph_format: file   # 模型图格式
model_data_format: file    # 权重数据格式
models:
  custom_model:            # 模型名称
    platform: tensorflow   # 原始框架
    model_file_path: /path/to/model.pb
    model_sha256_checksum: ...
    subgraphs:
      - input_tensors:
          - input0
        input_shapes:
          - 1,224,224,3
        output_tensors:
          - output0
        output_shapes:
          - 1,1001
    runtime: cpu+gpu       # 运行设备
    limit_opencl_kernel_time: 0
    nnlib_graph_mode: 0
    obfuscate: 0

3. 模型转换与优化

执行转换命令：

python tools/converter.py convert \
    --config=/path/to/custom_model.yml

转换过程会生成：

模型图文件(.pb)
权重数据文件(.data)
量化信息（如启用量化）

4. 构建推理引擎库

根据目标平台构建静态库或动态库：

bash tools/bazel_build_standalone_lib.sh \
    -abi=arm64-v8a \
    -runtimes=cpu,gpu \
    -static

关键参数说明：

-abi: 指定目标平台ABI
-runtimes: 指定支持的运行时（CPU/GPU/DSP/APU）
-static: 生成静态库（默认生成动态库）

5. 集成到应用程序

在C++项目中集成mace的基本流程：

#include "mace/public/mace.h"

// 1. 配置引擎
MaceEngineConfig config;
auto opencl_context = GPUContextBuilder()
    .SetStoragePath("/path/to/cl_binaries")
    .Finalize();
config.SetGPUContext(opencl_context);

// 2. 创建引擎
std::shared_ptr<mace::MaceEngine> engine;
CreateMaceEngineFromProto(
    model_pb_data, model_pb_size,
    weights_data, weights_size,
    {"input0"}, {"output0"},
    DeviceType::GPU, &engine);

// 3. 准备输入输出张量
std::map<std::string, mace::MaceTensor> inputs, outputs;
inputs["input0"] = mace::MaceTensor({1,224,224,3}, input_data);
outputs["output0"] = mace::MaceTensor({1,1001}, output_buffer);

// 4. 执行推理
engine->Run(inputs, &outputs);

高级技巧与注意事项

多设备支持策略：
- 实现设备自动回退机制（GPU失败时回退到CPU）
- 对于Qualcomm DSP，需部署Hexagon NN库：
```
adb push libhexagon_nn_skel.so /system/vendor/lib/rfsa/adsp/
```
性能优化建议：
- 启用OpenCL二进制缓存减少初始化时间
- 根据设备能力调整GPU性能参数
- 使用模型量化减小模型体积
调试技巧：
- 使用--validate参数验证精度
- 通过--benchmark获取详细性能分析
- 调试版本可使用-debug和-asan选项