如何构建最小化的ncnn深度学习推理库

云忱川

于 2025-06-01 09:14:47 发布

阅读量793

点赞数 20

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_01142/article/details/148362409

如何构建最小化的ncnn深度学习推理库

ncnn NCNN是一个轻量级的神经网络推理引擎，专为移动端和嵌入式设备优化。它支持多种硬件平台和深度学习框架，如ARM CPU、Mali GPU、Android、iOS等。特点：高效、低功耗、跨平台。项目地址: https://gitcode.com/gh_mirrors/nc/ncnn

ncnn是一个高效轻量的神经网络推理框架，特别适合移动端和嵌入式设备使用。但在某些资源极其受限的场景下，我们可能需要进一步精简ncnn库的体积。本文将详细介绍如何通过配置选项构建一个最小化的ncnn库。

基础编译选项精简

禁用C++ RTTI和异常处理

cmake -DNCNN_DISABLE_RTTI=ON -DNCNN_DISABLE_EXCEPTION=ON ..

这会禁用C++的运行时类型识别(RTTI)和异常处理机制，能显著减小库体积。但需要注意：

调用ncnn函数时不能使用RTTI和异常处理
代码中需要移除所有try-catch块和dynamic_cast操作

禁用Vulkan支持

cmake -DNCNN_VULKAN=OFF ..

这会禁用GPU加速功能，仅保留CPU计算路径。适合不需要GPU加速的场景。

功能模块裁剪

禁用标准IO功能

cmake -DNCNN_STDIO=OFF ..

禁用后：

不能从文件加载模型
但仍支持从内存或Android Assets加载模型

禁用字符串功能

cmake -DNCNN_STRING=OFF ..

影响包括：

只能加载二进制格式的模型参数文件(.bin)
不能使用字符串名称标识网络层，需改用枚举值

禁用特殊数据类型支持

cmake -DNCNN_BF16=OFF -DNCNN_INT8=OFF ..

-DNCNN_BF16=OFF：禁用BF16数据类型支持
-DNCNN_INT8=OFF：禁用INT8量化推理支持

图像处理功能裁剪

禁用绘图功能

cmake -DNCNN_PIXEL_DRAWING=OFF ..

禁用基本的绘图功能（矩形、圆形、文字等），但保留图像像素转换功能。

禁用图像变换功能

cmake -DNCNN_PIXEL_ROTATE=OFF -DNCNN_PIXEL_AFFINE=OFF ..

禁用旋转和仿射变换功能。

完全禁用图像处理

cmake -DNCNN_PIXEL=OFF ..

禁用所有图像像素相关功能，需要手动填充矩阵数据。

性能优化选项精简

禁用OpenMP

cmake -DNCNN_OPENMP=OFF ..

禁用多线程加速，强制单线程运行。

禁用特定指令集优化

cmake -DNCNN_AVX2=OFF -DNCNN_ARM82=OFF ..

根据目标平台CPU特性，禁用不必要的指令集优化：

AVX2：x86平台高级向量扩展
ARM82：ARM平台NEON指令集

禁用运行时CPU检测

cmake -DNCNN_RUNTIME_CPU=OFF ..

禁用运行时CPU特性检测，需手动指定支持的指令集。

深度定制选项

移除未使用的网络层

cmake -DWITH_LAYER_absval=OFF -DWITH_LAYER_bnll=OFF ..

根据模型实际使用的层类型，移除不必要的层实现。但注意保留基础层（如卷积、全连接等）及其依赖层。

使用简化STL实现

cmake -DNCNN_SIMPLESTL=ON ..

使用ncnn提供的简化STL替代标准库，需配合编译器选项：

-nodefaultlibs -fno-builtin -nostdinc++ -lc

手动裁剪优化内核

可直接修改源代码，删除特定平台的优化实现：

ARM优化代码：ncnn/src/layer/arm/
通用运算符实现：binaryop.cpp、unaryop.cpp等

总结

通过上述方法，可以显著减小ncnn库的体积，使其更适合资源受限的环境。实际裁剪时，建议：

先分析应用场景的必须功能
逐步测试各裁剪选项
确保裁剪后仍能满足模型运行需求
在体积和功能间取得平衡

合理配置后，ncnn可以变得非常精简，同时保持高效的推理能力。

ncnn NCNN是一个轻量级的神经网络推理引擎，专为移动端和嵌入式设备优化。它支持多种硬件平台和深度学习框架，如ARM CPU、Mali GPU、Android、iOS等。特点：高效、低功耗、跨平台。项目地址: https://gitcode.com/gh_mirrors/nc/ncnn

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

云忱川 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。