46.现有移动端开源框架及其特点——QNNPACK-2

最新推荐文章于 2024-12-13 09:09:32 发布

大勇任卷舒

最新推荐文章于 2024-12-13 09:09:32 发布

阅读量423

点赞数

分类专栏：深度学习文章标签：开源

@大勇若怯任卷舒

本文链接：https://blog.youkuaiyun.com/m0_47454596/article/details/129948267

版权

深度学习专栏收录该内容

66 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了QNNPACK在深度卷积方面的优化，包括3×3深度卷积的高性能实现，利用通用暂存器展开循环并减少地址重载。QNNPACK在MobileNetV2和MobileNetV1上的量化性能测试显示，其速度远超TensorFlow Lite，且在准确率上有优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

46.1 深度卷积

分组卷积（grouped convolution）将输入和输出通道分割成多组，然后对每个组进行分别处理。在有限条件下，当组数等于通道数时，该卷积就是深度卷积，常用于当前的神经网络架构中
- 深度卷积对每个通道分别执行空间滤波，展示了与正常卷积非常不同的计算模式。因此，通常要向深度卷积提供单独实现，QNNPACK 包括一个高度优化版本 3×3 深度卷积。
深度卷积的传统实现是每次都在卷积核元素上迭代，然后将一个卷积核行和一个输入行的结果累加到输出行
- 对于一个 3×3 的深度卷积，此类实现将把每个输出行更新 9 次
- 在 QNNPACK 中，研究者计算所有 3×3 卷积核行和 3×3 输入行的结果，一次性累加到输出行，然后再处理下个输出行。
QNNPACK 实现高性能的关键因素在于完美利用通用暂存器（GPR）来展开卷积核元素上的循环，同时避免在 hot loop 中重新加载地址寄存器
- 32-bit ARM 架构将实现限制在 14 个 GPR。在 3×3 深度卷积中，需要读取 9 个输入行和 9 个卷积核行。这意味着如果想完全展开循环必须存储 18 个地址
- 然而，实践中推断时卷积核不会发生变化。因此 Facebook 研究者使用之前在 CxKHxKW 中的滤波器

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。