摘要:
实时执行像素语义分割的能力在移动应用程序中至关重要。最近针对这一任务的深层神经网络的缺点是需要大量的浮点运算,并且运行时间长,这阻碍了其可用性。在本文中,我们提出了一种新的深度神经网络体系结构ENet(高效神经网络),专门为需要低延迟操作的任务创建。ENet的速度高达18CamVid,Cityscaoes和SUN数据集上对其进行了测试,并报告了与现有最先进方法的比较,以及网络精度和处理时间之间的权衡。我们减少了嵌入式系统上拟议体系结构的性能度量,并提出了可能的软件改进建议,是ENet更快。
介绍
最近人们对增强现实可穿戴设备、家庭自动化设备和自动驾驶车辆的兴趣使得人们迫切需要能够在低功耗移动设备上实时运行的语义分割(或视觉场景理解)算法。这些算法用一个对象类标记图像中的每个像素。近年来,大型数据集和计算能力强大的集齐的可用性帮助深度卷积神经网络CNN超过了许多传统计算机视觉算法的性能,尽管CNN在分类和分类任务方面越来越成功,但当应用于图像的像素级标记时,他们提供了粗略的空间结果哦。因此,他们通常与其他算法级联以细化结果。列如基于颜色的分割或条件随机场
为了对图像进行空间分类和精细分割,提出了几种神经网络结构,如segnet或全卷积网络。所有泽泻工作都基于vgg16体系结构,这是一个为多分类设计的非常大的模型。这些参考文献提出了具有大量参数和较长推理时间的网络。在这些条件下,他们无法用于许多移动或电池供电的应用程序。这些应用程序需要以高于10fps的速率处理图像。
在本文中,我们提出了一种新的神经网络结构,该结构又花了快速推理和高精度,使用Enet分割的图像示例如图1所示。在我们的工作中,我们选择了不适用任何后处理步骤,这当然可以与我们的方法相结合,但会恶化端到端CNN方法的