LinkNet论文笔记
LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation
Abstract
用于视觉场景理解的像素语义分割不仅需要准确,而且需要高效,以便在实时应用中找到任何用途。现有的算法虽然准确,但没有有效地利用神经网络的参数。因此,就参数和操作数量而言,它们是巨大的;因此也很慢。在本文中,我们提出了一种新的深度神经网络结构,它可以在不显著增加参数数量的情况下进行学习。我们的网络仅使用1150万个参数和21.2 GFLOPs来处理分辨率为3×640×360的图像。它在CamVid上提供了最先进的性能,并在Cityscapes数据集上提供了可比的结果。我们还比较了我们在NVIDIA GPU和embedded系统设备上的网络处理时间,以及不同图像分辨率的现有最先进架构。
1、INTRODUCTION
最近,能够执行计算密集型任务的机器的发展使研究人员能够更深入地研究神经网络。卷积神经网络(CNN)[1],[2]最近在图像分类[3]、[4]、[5]、[6]、[7]、[8]、定位[9]、[10]、场景理解[11]、[12]等方面取得了成功。由于增强现实和自动驾驶车辆等任务的激增,许多研究人员将注意力转移到场景理解上,其中一个主要步骤是像素级分类/语义分割[13],[14]。
根据自动编码器[3],[15]的要求,大多数现有的语义分割技术都使用encoder-decode对作为其网络架构的核心。在这里,编码器将信息编码到特征空间中,解码器将该信息映射到空间分类中以执行分割。尽管语义分割针对的是需要实时操作的应用程序,但讽刺的是,当前大多数深度网络都需要过大的处理时间。YOLO[16]、Fast RCNN[17]、SSD[18]等网络专注于实时对象检测,但在语义分割的情况下,在这方面几乎没有做过什么工作[19]。
在我们的工作中,我们试图在不影响网络处理时间的情况下获得准确的实例级预测。通常情况下,编码器中的空间信息会由于池化或步幅卷积而丢失,通过使用(pooling indices)池化索引或( full convolution)完全卷积来恢复。我们假设,并在我们的论文中证明,代替上述技术;绕过空间信息,直接从编码器到相应的解码器,可以提高精度,同时显著减少处理时间。通过这种方式,编码器的每一级都会丢失的信息得以保留(浅层信息保留),并且在重新学习丢失的信息时不会浪费额外的参数和操作。在第三节中,我们将详细解释我们的LinkNet架构。提议的网络在流

LinkNet是一种深度神经网络结构,旨在实现实时像素级语义分割,同时保持高精度。该网络利用编码器的表示,通过直接从编码器到解码器的连接恢复空间信息,减少了参数数量和处理时间。LinkNet在Cityscapes和CamVid数据集上表现出色,证明了其在嵌入式系统和GPU上的实时性能。相比于其他复杂网络,LinkNet具有更高的效率和竞争力的准确性。
最低0.47元/天 解锁文章
449

被折叠的 条评论
为什么被折叠?



