深入理解ncnn中的元素打包（Element Packing）技术

彭桢灵Jeremy

于 2025-06-01 09:14:44 发布

阅读量775

点赞数 12

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00274/article/details/148362394

深入理解ncnn中的元素打包（Element Packing）技术

ncnn NCNN是一个轻量级的神经网络推理引擎，专为移动端和嵌入式设备优化。它支持多种硬件平台和深度学习框架，如ARM CPU、Mali GPU、Android、iOS等。特点：高效、低功耗、跨平台。项目地址: https://gitcode.com/gh_mirrors/nc/ncnn

什么是元素打包

元素打包（Element Packing）是一种将多个短尺寸值存储为一个长尺寸值的技术。在ncnn神经网络推理框架中，这项技术被广泛应用于优化内存访问和计算效率。

简单来说，就像我们把多个小包裹打包成一个大箱子运输一样，元素打包将多个小数据单元合并成一个大数据单元进行处理。这种技术特别适合SIMD（单指令多数据）指令集架构，因为SIMD寄存器通常使用一个非常宽的寄存器来存储不同类型的值。

为什么要使用元素打包

性能优化：充分利用现代CPU的SIMD指令集，实现并行计算
内存效率：减少内存访问次数，提高缓存利用率
计算吞吐量：单次操作可以处理更多数据

基本概念解析

元素大小（elemsize）与打包数（elempack）

在ncnn中，每个数据元素有两个重要属性：

elemsize：单个元素占用的字节数
elempack：打包在一起的基本元素数量

以C语言基本类型为例：

| 类型 | elemsize | elempack | |------|----------|----------| | double | 8 | 1 | | float | 4 | 1 | | int | 4 | 1 | | short | 2 | 1 | | signed char | 1 | 1 |

而使用ARM NEON SIMD指令集时：

| 类型 | elemsize | elempack | |------|----------|----------| | float64x2_t | 16 | 2 | | float32x4_t | 16 | 4 | | int32x4_t | 16 | 4 | | float16x4_t | 8 | 4 | | int8x8_t | 8 | 8 |

打包对数据结构的影响

虽然打包后实际存储的值数量增加了（elempack倍），但在ncnn的Mat结构中，这些宽尺寸值仍然被视为单个值。

举例说明：假设我们要在Mat对象中存储40个float值：

使用elempack=1时：
- Mat宽度（w）=40
- 每个元素大小=4字节
- 总数据量=40×4=160字节
使用elempack=4时：
- Mat宽度（w）=10（因为40/4=10）
- 每个元素大小=16字节（4个float×4字节）
- 总数据量=10×16=160字节

可以看到，虽然数据结构表示不同，但实际存储的数据量是相同的。

打包风格约定

在实践中，elempack=1、4、8是最常见的情况。理论上可以使用任何其他打包风格，但ncnn主要支持这些标准打包方式。

ncnn对不同维度的张量使用不同的打包轴：

| 维度 | 打包轴 | 打包前形状 | 打包后形状 | |------|--------|------------|------------| | 1维 | w | w | w/elempack | | 2维 | h | w, h | w, h/elempack | | 3维 | c | w, h, c | w, h, c/elempack |

如果打包轴维度不能被elempack整除，可能会使用零填充：

outw = (w + elempack - 1) / elempack;

内存布局示例

让我们看一个具体的3维Mat在elempack=4时的内存布局变化：

打包前（w=2, h=3, c=4, elempack=1）：

打包后（w=2, h=3, c=1, elempack=4）：

(0,6,12,18) (1,7,13,19)
(2,8,14,20) (3,9,15,21)
(4,10,16,22) (5,11,17,23)

可以看到，打包操作将原来分布在4个通道的对应位置元素合并成了一个打包元素。

打包转换实践

ncnn提供了方便的打包转换函数：

// 转换为elempack=4（如果打包轴维度能被4整除）
ncnn::Mat a;
ncnn::Mat a_packed;
ncnn::convert_packing(a, a_packed, 4);
if (a_packed.elempack == 4)
{
    // 打包成功
}

// 转换为elempack=1（解包，总是成功）
ncnn::Mat b;
ncnn::Mat b_unpacked;
ncnn::convert_packing(b, b_unpacked, 1);

实际应用案例：处理交错数据

虽然不建议在生产环境中使用（因为性能不佳），但我们可以通过convert_packing函数将交错的RGB数据转换为平面格式：

ncnn::Mat rgb_interleaved_u8(w, h, 1, 3, 3); // RGB交错格式
ncnn::Mat rgb_planar_u8;

ncnn::convert_packing(rgb_interleaved_u8, rgb_planar_u8, 1);

// 现在rgb_planar_u8是平面格式：RRR...GGG...BBB...

在实际应用中，应该使用ncnn::Mat::from_pixels()等专用函数来处理图像数据，因为它们针对性能进行了优化。