ENet:一种用于实时语义分割的深层神经网络结构

本文提出了一种名为ENet的新型深度神经网络,专为移动设备上的低延迟实时像素语义分割任务设计。现有的深度学习方法在处理速度和精度之间存在权衡,而ENet旨在解决这个问题。它在CamVid、Cityscapes和SUN数据集上展示了高效率和精确度。通过减少嵌入式系统上的性能指标并提出软件优化建议,ENet能够更快地运行,无需额外的后处理步骤,从而实现端到端的高效语义分割。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:

实时执行像素语义分割的能力在移动应用程序中至关重要。最近针对这一任务的深层神经网络的缺点是需要大量的浮点运算,并且运行时间长,这阻碍了其可用性。在本文中,我们提出了一种新的深度神经网络体系结构ENet(高效神经网络),专门为需要低延迟操作的任务创建。ENet的速度高达18CamVid,Cityscaoes和SUN数据集上对其进行了测试,并报告了与现有最先进方法的比较,以及网络精度和处理时间之间的权衡。我们减少了嵌入式系统上拟议体系结构的性能度量,并提出了可能的软件改进建议,是ENet更快。

介绍

最近人们对增强现实可穿戴设备、家庭自动化设备和自动驾驶车辆的兴趣使得人们迫切需要能够在低功耗移动设备上实时运行的语义分割(或视觉场景理解)算法。这些算法用一个对象类标记图像中的每个像素。近年来,大型数据集和计算能力强大的集齐的可用性帮助深度卷积神经网络CNN超过了许多传统计算机视觉算法的性能,尽管CNN在分类和分类任务方面越来越成功,但当应用于图像的像素级标记时,他们提供了粗略的空间结果哦。因此,他们通常与其他算法级联以细化结果。列如基于颜色的分割或条件随机场

为了对图像进行空间分类和精细分割,提出了几种神经网络结构,如segnet或全卷积网络。所有泽泻工作都基于vgg16体系结构,这是一个为多分类设计的非常大的模型。这些参考文献提出了具有大量参数和较长推理时间的网络。在这些条件下,他们无法用于许多移动或电池供电的应用程序。这些应用程序需要以高于10fps的速率处理图像。

在本文中,我们提出了一种新的神经网络结构,该结构又花了快速推理和高精度,使用Enet分割的图像示例如图1所示。在我们的工作中,我们选择了不适用任何后处理步骤,这当然可以与我们的方法相结合,但会恶化端到端CNN方法的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值