HyperSeg: 基于块的超网络实时语义分割——HyperSeg:Patch-wise Hypernetwork for Real-time Semantic Segmentation

0.摘要

        我们提出了一种新型的实时语义分割网络,其中编码器既编码又生成解码器的参数(权重)。此外,为了允许最大的适应性,每个解码器块的权重在空间上是变化的。为此,我们设计了一种新型的超网络,由嵌套的U-Net、多头权重生成模块和由新型动态块卷积组成的主网络构成。为了实现高效的内存利用,权重生成模块会在解码器使用权重之前立即生成每个块的权重。尽管使用了不太传统的块,我们的架构实现了实时性能。在运行时间与准确性之间的权衡方面,我们超越了流行的语义分割基准测试PASCAL VOC 2012(验证集)和Cityscapes、CamVid上的最新结果。我们的代码可以在https://nirkin.com/hyperseg上获取。

1.引言

        语义分割在场景理解中发挥着至关重要的作用,无论是微观场景、望远镜中的场景、由移动车辆捕捉的场景还是通过AR设备查看的场景。新的移动应用程序不仅需要准确的语义分割,还需要实时处理,促进了实时语义分割的研究。这个领域已成为新架构和训练方法的主要测试平台,旨在提高准确性和速度。最近的工作增加了容量[5,6]和注意机制[20,45,49]来改善性能。当运行时间不是一个问题时,图像通常会被模型多次处理,然后累计结果。在本文中,我们尝试通过提供网络额外的适应性来改善性能。我们使用元学习技术添加这种适应性,通常称为动态网络或超网络[13]。这些网络用于从文本分析[13,50]到3D建模[26,42]等各种任务,但很少用于生成类似于图像的地图。原因是超网络,正如以前的方法所建议的那样,不能完全捕捉高分辨率图像的信号。

        语义分割地图是一个特别有趣的案例。它们是通过一个从粗到细的金字塔生成的,过程中的每个级别都可以从适应性中受益,因为这些效果会从一个块积累到下一个块。此外,由于图像的每个部分都可能包含不同的对象,因此最好在局部进行适应性处理。因此,我们提供了一种新的编码器-解码器方法,其中编码器的骨干基于该领域的最新进展。编码信号使用内部U-Net映射到动态网络权重,而解码器由具有空间变化权重的动态块组成。所提出的架构在这项任务的最广泛使用的基准测试中实现了最先进的准确性与运行时间之间的权衡:PASCAL VOC 2012 [11],CityScapes [8]和CamVid [2]。对于CityScapes和CamVid,最先进的准确性结果是在实时条件下获得的。尽管使用了一种采用动态权重局部连接层的非传统架构,但我们的方法非常高效(请参见图1,了解我们的运行时间/准确性与其他方法之间的权衡)。总之,我们的贡献是:•一种新的超网络架构,它在U-Net内使用了一个U-Net。•新颖的动态块卷积,其权重在每个输入和每个空间位置上都会变化。•在该领域的主要基准测试中实现了最先进的准确性与运行时间之间的权衡。

图1.在Cityscapes [8]测试集上的运行时间/准确度权衡比较。我们的模型(橙色)在相对于所有先前的实时方法而言实现了最佳的准确度和最佳的运行时间与准确度权衡。

2.相关工作

        超网络。超网络[13]是生成其他网络(通常称为主要网络)权重值的网络。超网络作为建模工具非常有用,例如作为图像到图像翻译[9,24]、3D场景表示[26,42]的隐式函数,以及在神经架构搜索(NAS)[55]和持续学习[48]期间避免计算和数据密集的训练周期。然而,据我们所知,超网络从未被提议用于语义分割,而我们在此处提出使用它们。局部连接层。局部连接层中的连接性遵循与传统卷积层类似但不共享权重的空间模式。这种层在深度学习的早期发挥了重要作用,主要是由于计算原因[10,36,47]。局部连接层在人脸识别的背景下被引入作为增强精度的组件,这是因为需要以不同的方式对面部的每个部分进行建模[43]。然而,随后的人脸识别方法往往使用传统的卷积,例如[41]。共享部分权重,其中卷积在图像块内共享,被提议用于分析面部动作[58]。据我们所知,我们是第一个在超网络或语义分割的背景下提出局部连接层的人,或者更一般地说,在图像到图像映射中。

        语义分割。早期的语义分割方法使用特征工程,通常依赖于数据驱动的方法[15,16,17,46]。据我们所知,Long等人[28]是第一批展示卷积神经网络(CNN)进行语义分割的端到端训练的人。他们的完全卷积网络(FCN)基于分类网络骨干输出可变分辨率的密集像素预测。他们在早期和最终层之间加入了跳跃连接,以组合粗细信息。随后的方法添加了基于条件随机场(CRF)的后处理步骤,以进一步细化分割掩模[3,4,59]。Nirkin等人通过利用视频中的运动来克服有限的、稀少的分割标签[31]。U-Net [38]使用编码器-解码器对,将编码器的最后特征映射与解码器中相应的上采样特征映射在每个步骤中进行连接。一些人提出用扩张卷积,即空洞卷积,代替步幅卷积[4,54]。这种方法通过扩大logits的感受野产生了更详细的分割结果,但也大大增加

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值