嵌入式GPU上剪枝语义分割网络的能耗分析
1. 引言
在过去十年里,深度神经网络在计算机视觉的诸多任务中,如分类、检测和语义分割,已成为主流。这使其在自动驾驶领域备受关注。Cityscapes是为该领域设计的语义分割数据集,因其高分辨率、大规模以及图像和类别的多样性,带来了巨大挑战。
对于这个数据集,HRNets等网络处于领先地位,但它们在推理时有大量参数和操作,会产生大的中间产物,导致内存占用大。这样的成本对于嵌入式设备来说过高,限制了它们在自动驾驶车辆中的应用。
为降低网络成本,神经网络压缩领域有多种方法,如量化、蒸馏和剪枝。本文聚焦于剪枝,特别是“结构化”滤波器剪枝,它能移除深度神经网络卷积层中的整个神经元。不过,当网络层间存在长距离依赖关系(如残差连接)时,对不同层应用不同剪枝率会使结构化剪枝的实现变得困难。
本文旨在利用HRNet - 48中的不规则结构化稀疏性,在NVIDIA Jetson AGX Xavier嵌入式GPU上测量能耗的降低。通过两种不同的剪枝方法,展示同一网络架构在性能和成本之间的不同权衡,并与未剪枝的HRNet - 32和HRNet - 18进行比较。
2. 相关工作
2.1 语义分割网络
早期的深度语义分割神经网络是通过连接分类网络和解码器构建的。编码器(通常是预训练的)的卷积层产生中间表示,然后依次输入解码器进行上采样和求和。这一原理由Long等人(FCN)引入,后由Ronneberger等人(U - net)完善,确立了编码器和解码器之间的对称性,在SegNet等网络中也能看到。
扩张卷积则催生了另一类语义分割网络,如DeepLab网络,
超级会员免费看
订阅专栏 解锁全文
1038

被折叠的 条评论
为什么被折叠?



