语义分割论文阅读笔记7:DDRNet

Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes,CVPR,2021

论文地址

摘要

语义分割是自动驾驶汽车理解周围场景的关键技术。当代模型的吸引人的性能通常是以繁重的计算和漫长的推理时间为代价的,这对于自动驾驶来说是无法忍受的。最近的方法使用轻量级架构(编码器-解码器或双路径)或对低分辨率图像进行推理,实现了非常快速的场景解析,甚至在单个 1080Ti GPU 上以超过 100 FPS 的速度运行。然而,这些实时方法与基于扩张主干的模型在性能上仍然存在显着差距。为了解决这个问题,我们提出了一系列专门为实时语义分割而设计的高效主干网。所提出的深度双分辨率网络(DDRNet)由两个深度分支组成,在这两个分支之间执行多个双边融合。此外,我们设计了一种名为深度聚合金字塔池模块(DAPPM)的新上下文信息提取器,以扩大有效感受野并基于低分辨率特征图融合多尺度上下文。我们的方法在 Cityscapes 和 CamVid 数据集上实现了准确性和速度之间的新的最先进的权衡。特别是,在单个 2080Ti GPU 上,DDRNet-23-slim 在 Cityscapes 测试集上在 102 FPS 下产生 77.4% mIoU,在 CamVid 测试集上在 230 FPS 下产生 74.7% mIoU。通过广泛使用的测试增强,我们的方法优于大多数最先进的模型,并且需要更少的计算。代码和经过训练的模型可在线获取。

引言

随着深度学习技术的兴起,卷积神经网络被应用于图像分割,并且大大优于基于手工特征的传统方法。自从提出全卷积网络(FCN)来处理语义分割问题以来,一系列新颖的网络被提出。 DeepLab 消除了 ResNet 中的一些下采样以保持高分辨率,并利用膨胀卷积 来扩大感受野。从那时起,带有上下文提取模块的基于扩张卷积的主干网已成为广泛用于各种方法的标准布局,包括 DeepLabV2 、DeepLabV3 、PSPNet 和 DenseASPP 。

大感受野的图来产生令人满意的结果,这在计算上是昂贵的。这个问题对于自动驾驶的场景解析尤其重要,因为自动驾驶需要对非常大的图像进行强制执行以覆盖广阔的视野。因此,上述方法在推理阶段非常耗时,无法直接部署在实际的自动驾驶车辆上。由于利用多尺度测试来提高准确性,他们甚至无法在一秒钟内处理图像。

随着移动设备部署需求的不断增长,实时分割算法受到越来越多的关注。 DFANet 采用深度多尺度特征聚合和轻量级深度可分离卷积,在 100 FPS 下实现了 71.3% 的测试 mIoU。与编码器-解码器范式不同,Bisenet提出了一种由空间路径和上下文路径组成的新颖的双边网络。特别地,空间路径利用三个相对较宽的 3×3 卷积层来捕获空间细节,上下文路径是一个紧凑的预训练主干,用于提取上下文信息。包括Fast-scnn在内的此类双边方法比当时的编码器解码器结构实现了更高的推理速度。

最近,提出了一些针对道路场景语义分割的竞争性实时方法。这些方法可以分为两类。一种利用 GPU 高效的主干网,尤其是 ResNet-18另一个开发了从头开始训练的复杂轻量级编码器,其中一个 BiSeNetV2 在实时性能方面达到了新的峰值,在 Cityscapes 上以 156 FPS 实现了 72.6% 的测试 mIoU。然而,这些最近的工作并没有显示出获得更高质量结果的潜力。其中一些由于故意设计的架构和调整的超参数而缺乏可扩展性。此外,考虑到更强大的骨干网的繁荣,ResNet-18 的优势不大。

引出方法

在本文中,我们提出了具有深度高分辨率表示的双分辨率网络,用于高分辨率图像(尤其是道路驾驶图像)的实时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值