低功耗图像识别系统的优化与网络探索
在低功耗计算机视觉领域,为了提高图像识别系统的性能和效率,需要采用一系列的优化技术和网络探索方法。本文将详细介绍相关的优化技术和网络选择策略。
1. 软件优化技术
在进行层划分到处理元素后,需要针对瓶颈处理元素应用软件优化技术,因为吞吐量性能由最长的流水线阶段决定。
1.1 Tucker分解
在流水线操作后,GPU 成为瓶颈。由于卷积层最耗时且需要大量内存空间,Tucker 分解是一种用于减少计算时间和内存需求的近似计算方法。
- 原理 :将一个卷积层分解为三个小的卷积层,关键是减少 3×3 内核主卷积层中涉及的通道数。通过 1×1 卷积在输入侧将通道数从 $C_i$ 减少到 $C’_i$,主卷积层的输出通道数从 $C_o$ 减少到 $C’_o$,最后再用 1×1 卷积将输出通道数扩展到 $C_o$。若原始卷积的输入通道数较少,可省略第一个 1×1 卷积。
- 操作步骤 :
- 确定原始卷积层的参数 $C_i$、$C_o$、$h$ 和 $w$。
- 按照经验法则,将 $C’_i$ 和 $C’_o$ 分别设置为 $C_i$ 和 $C_o$ 的一半。
- 从第四卷积层开始应用 Tucker 分解,因为第二和第三卷积层应用该分解后会变慢。
- 重新训练网络。
Tucker 分解的加速增益约为 40%,重新训练后的精度损失小于 2%。
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



