21、低功耗图像识别系统的优化与网络探索

最新推荐文章于 2025-11-13 09:32:39 发布

beta5

最新推荐文章于 2025-11-13 09:32:39 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：低功耗视觉AI的未来文章标签：低功耗图像识别 Tucker分解 CPU并行化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/beta5/article/details/151268471

低功耗视觉AI的未来专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

低功耗图像识别系统的优化与网络探索

在低功耗计算机视觉领域，为了提高图像识别系统的性能和效率，需要采用一系列的优化技术和网络探索方法。本文将详细介绍相关的优化技术和网络选择策略。

1. 软件优化技术

在进行层划分到处理元素后，需要针对瓶颈处理元素应用软件优化技术，因为吞吐量性能由最长的流水线阶段决定。

1.1 Tucker分解

在流水线操作后，GPU 成为瓶颈。由于卷积层最耗时且需要大量内存空间，Tucker 分解是一种用于减少计算时间和内存需求的近似计算方法。

原理：将一个卷积层分解为三个小的卷积层，关键是减少 3×3 内核主卷积层中涉及的通道数。通过 1×1 卷积在输入侧将通道数从 $C_i$ 减少到 $C’_i$，主卷积层的输出通道数从 $C_o$ 减少到 $C’_o$，最后再用 1×1 卷积将输出通道数扩展到 $C_o$。若原始卷积的输入通道数较少，可省略第一个 1×1 卷积。
操作步骤 ：
1. 确定原始卷积层的参数 $C_i$、$C_o$、$h$ 和 $w$。
2. 按照经验法则，将 $C’_i$ 和 $C’_o$ 分别设置为 $C_i$ 和 $C_o$ 的一半。
3. 从第四卷积层开始应用 Tucker 分解，因为第二和第三卷积层应用该分解后会变慢。
4. 重新训练网络。

Tucker 分解的加速增益约为 40%，重新训练后的精度损失小于 2%。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。