XiaoMi/mace项目中的内存布局设计解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00293/article/details/148507911

XiaoMi/mace项目中的内存布局设计解析

在深度学习推理框架中，内存布局设计是影响性能的关键因素之一。XiaoMi/mace项目针对CPU和GPU运行时采用了不同的内存布局策略，以充分利用硬件特性，提高计算效率。本文将详细解析mace框架中的内存布局设计原理。

CPU运行时采用传统的张量缓冲区布局方式，主要特点如下：

这种布局方式与主流深度学习框架一致，便于CPU进行连续内存访问，提高缓存命中率。

GPU运行时基于OpenCL实现，采用2D图像(CL_RGBA)作为张量存储，要求OpenCL 1.2及以上版本。这种设计充分利用了GPU的纹理内存和并行处理能力。

输入/输出张量采用NHWC格式存储，但根据不同的使用场景有三种映射方式：

通道优先(Channel-Major)：
- 默认输入/输出格式
- 图像尺寸：[W × (C+3)/4, N × H]
- 每个像素包含4个连续通道的数据
高度优先(Height-Major)：
- 主要用于Winograd变换和矩阵乘法输出
- 图像尺寸：[W × C, N × (H+3)/4]
- 每个像素包含4个连续高度的数据
宽度优先(Width-Major)：
- 当前未使用
- 图像尺寸：[(W+3)/4 × C, N × H]
- 每个像素包含4个连续宽度的数据

常规卷积滤波器：
- 缓冲区格式：OIHW
- 图像尺寸：[I, (O+3)/4 × W × H]
- 每个像素包含4个输出通道的数据
深度可分离卷积滤波器：
- 缓冲区格式：MIHW
- 图像尺寸：[H × W × M, (I+3)/4]
- 每个像素包含4个输入通道的数据
- 当前仅支持乘数为1的情况