ENet：一种用于实时语义分割的深层神经网络结构

最新推荐文章于 2025-09-25 17:30:00 发布

原创

最新推荐文章于 2025-09-25 17:30:00 发布 · 3.8k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人工智能 #深度学习

本文提出了一种名为ENet的新型深度神经网络，专为移动设备上的低延迟实时像素语义分割任务设计。现有的深度学习方法在处理速度和精度之间存在权衡，而ENet旨在解决这个问题。它在CamVid、Cityscapes和SUN数据集上展示了高效率和精确度。通过减少嵌入式系统上的性能指标并提出软件优化建议，ENet能够更快地运行，无需额外的后处理步骤，从而实现端到端的高效语义分割。

摘要：

实时执行像素语义分割的能力在移动应用程序中至关重要。最近针对这一任务的深层神经网络的缺点是需要大量的浮点运算，并且运行时间长，这阻碍了其可用性。在本文中，我们提出了一种新的深度神经网络体系结构ENet（高效神经网络），专门为需要低延迟操作的任务创建。ENet的速度高达18CamVid，Cityscaoes和SUN数据集上对其进行了测试，并报告了与现有最先进方法的比较，以及网络精度和处理时间之间的权衡。我们减少了嵌入式系统上拟议体系结构的性能度量，并提出了可能的软件改进建议，是ENet更快。

介绍

最近人们对增强现实可穿戴设备、家庭自动化设备和自动驾驶车辆的兴趣使得人们迫切需要能够在低功耗移动设备上实时运行的语义分割（或视觉场景理解）算法。这些算法用一个对象类标记图像中的每个像素。近年来，大型数据集和计算能力强大的集齐的可用性帮助深度卷积神经网络CNN超过了许多传统计算机视觉算法的性能，尽管CNN在分类和分类任务方面越来越成功，但当应用于图像的像素级标记时，他们提供了粗略的空间结果哦。因此，他们通常与其他算法级联以细化结果。列如基于颜色的分割或条件随机场

为了对图像进行空间分类和精细分割，提出了几种神经网络结构，如segnet或全卷积网络。所有泽泻工作都基于vgg16体系结构，这是一个为多分类设计的非常大的模型。这些参考文献提出了具有大量参数和较长推理时间的网络。在这些条件下，他们无法用于许多移动或电池供电的应用程序。这些应用程序需要以高于10fps的速率处理图像。

在本文中，我们提出了一种新的神经网络结构，该结构又花了快速推理和高精度，使用Enet分割的图像示例如图1所示。在我们的工作中，我们选择了不适用任何后处理步骤，这当然可以与我们的方法相结合，但会恶化端到端CNN方法的性能

2相关工作

语义分割对于理解图像内容和发现目标对象具有重要意义。这项拘束在驾驶辅助和增强现实等应用中至关重要。此外，实时操作对他们来说是必须的，因此，仔细设计

cnn是至关重要的。现代计算机视觉应用管饭使用深度神经网络，这是目前用于许多不同任务（包括语义分割）的最广泛的技术之一。这项工作提出了一种新的神经网络结构，因此我们的目标是与以相同执行发部分推