并行互补网络用于道路场景的实时语义分割
摘要
实时语义分割在自动驾驶应用中需求迫切。大多数语义分割模型倾向于使用大尺寸特征图和复杂结构来增强表示能力以实现高精度。然而,这些低效的设计增加了计算成本,阻碍了模型在自动驾驶中的实际应用。本文提出了一种轻量级的实时分割模型——并行互补网络(PCNet),以更少的参数应对这一挑战性任务。我们引入并行互补层来生成具有较大感受野的互补特征,有效缓解不同类别间相似特征编码的问题,并进一步产生更具判别性的表示。结合倒置残差结构,我们设计了并行互补块用于构建所提出的PCNet。在具有挑战性的道路场景数据集CityScapes和CamVid上进行了大量实验,与多种最先进的实时分割模型进行了对比。结果表明,我们的模型表现出优异的性能。具体而言,PCNet*在仅使用1.5M参数的情况下,在CityScapes上达到了72.9%的平均交并比,并在GTX 2080 Ti上以 1024 × 2048分辨率图像实现了79.1帧率。此外,我们提出的模型在从零开始训练时达到了最佳的精度。
索引词
道路场景理解,实时语义分割,深度卷积神经网络。
一、引言
SEMANTIC 分割是计算机视觉中的一项基本任务,主要负责标记图像中的每个像素。因此,分割模型能够根据单个或多个摄像头捕获的数据理解具体的物体细节。它可以广泛应用于许多基于视觉的智能交通系统,如自动驾驶、重建立和视频监控[1]–[5]。因此,语义分割在支持上述应用方面具有巨大的潜在价值。
在过去的几年中,深度卷积神经网络在许多领域取得了巨大进展[6]–[12]。与传统方法相比,它们能够提供可靠的特征以完成特定任务。自从Long et al. [13]首次提出使用全卷积神经网络解决语义分割任务以来,该领域已开发出许多高性能网络[14],[15]。受迁移学习的启发,大多数现有系统将通用分类神经网络[16]–[18]作为骨干网络,同时利用先验信息,从而赋予模型强大的特征编码能力。例如,许多最先进的模型(DeeplabV2[19],、DenseASPP [20],、PSPNet [21])采用ResNet [17]来提取高层特征。这些研究还表明,多尺度特征能够逐步提升分割质量。然而,由于计算成本巨大,上述方法往往难以应用于智能系统。
最近,随着对实时交互需求的迅速增长,许多研究开始关注如何实现快速语义分割。尽管早期方法在某种程度上降低了计算成本,但却导致了显著的性能下降。例如,SegNet [22]和SQNet [23],这两个代表性模型能够实现较快的推理速度,但与其它高性能网络相比,其分割精度损失超过10%。最新实时分割方法主要从两个方向应对实时分割的挑战。一方面,为了在边缘设备上的应用,人们期望模型具有极高效率。然而,模型越轻量级,越难以实现性能突破[24]–[28]。因此,上述模型的分割性能往往低于其他竞争者。另一方面,受高性能模型成功的启发,一些方法(如BiSeNet [29],、SwiftRN [30])迁移ImageNet预训练骨干网络以利用有效先验信息。与上述轻量级模型相比,它们需要较高的计算成本,但其分割性能得到了显著提升。图1中的三角点表示最新的实时分割方法,表明在高分辨率图像上实现计算成本与分割性能之间的满意平衡仍然是一个挑战。
人们普遍认为,扩大感受野有助于模型做出准确的预测[19]– [21]。我们首先进行分析
大多数方法的帧率在 1024×2048分辨率下进行评估,除了SegNet、S Q、ENet在 640×360,FSSNet、ESPNet和ERFNet在 512 × 1024, BiseNet在 768 × 1536,DFANet在 1024 × 1024。
具有相同感受野的不同卷积操作的影响。使用大卷积核 [31]是扩大感受野的直接方法,这略微提升了分割精度。然而,这种方法并不适合解决上述挑战。堆叠[27],[28]和空洞卷积[25]是两种可替代的方法,用以获得与大卷积核相同的感受野。堆叠卷积存在严重依赖局部特征的问题,而空洞卷积则难以保留局部特征。这一问题主要源于不合理的采样分布。图2f展示了堆叠方法的结果。与普通的 5 × 5卷积相比,其分布变为丘形,逐渐迫使网络在同一感受野内过度采样特征。因此,不同类别的相似特征表示会混淆分类器的预测。如[32],所述,空洞卷积倾向于忽略局部特征(参见图2g所示示例)。因此,梯度无法在这些零权重区域,导致高层特征表示上出现网格效应。
基于上述分析,本文提出了一种并行互补层(PC layer)来解决上述问题。该层采用两个并行卷积来保留局部特征,并通过大规模的互补信息进一步增强表示能力。如图2h所示,并行互补层生成了均衡的采样分布,不会过度使用局部特征。因此,所提出的PC层能够实现一致且准确的预测。
此外,受倒残差结构[33],的启发,我们设计了一种高效的并行互补块(PC block)。文献[33]已证明,此类架构能够有效捕捉嵌入在低维表示中的“感兴趣流形”。基于该PC块,我们构建了所提出的并行互补网络( PCNet)。我们提出模型的整体结构可视为一种编码器‐解码器框架。编码器由快速下采样模块(FDM)和特征提取器组成。为了降低计算复杂度,特征提取器采用较大的下采样率。解码器由高层融合模块(HLF)和分类器组成。HLF生成融合后的高层特征,随后分类器将这些特征与空间信息结合以进行最终预测。
本文的主要贡献如下:
1) 我们设计了一种并行互补层(PC layer),通过引入适当的互补信息来增强局部特征。该层以比其他竞争方法更低的成本且更有效的方式扩大感受野。更重要的是,它有助于提升密集分类的性能。
2) 我们通过在倒置残差结构中集成PC层,设计了并行互补块(Parallel Complement block),以保持网络的表示能力。此外,我们提出了一种PC‐lite模块(PC‐lite block),将参数量和计算成本减少了近四分之一。
3) 我们提出了一种并行互补网络(Parallel Complement Network)来解决实时分割任务。与其他最先进的模型相比,我们的系统在高分辨率图像上实现了更高的平均交并比( Mean IoU)和更快的推理速度。在两个公开的场景分割基准数据集CityScapes和CamVid上,该网络在参数量、计算成本和分割性能之间实现了更好的平衡。
II. 相关工作
A. 语义分割
FCN [13]是首个使用全卷积网络来解决语义分割任务的模型。它用卷积操作替代了通常用于分类的全连接层,以实现像素级预测。许多后续方法都基于全卷积方式。受非下采样小波变换[34],Deeplab [35]的启发,将空洞卷积引入分割领域,
该操作通过在卷积核内插入零孔洞,能够有效扩大感受野。随后,为了增强多尺度特征提取能力,提出了空洞空间金字塔池化(ASPP)[19],其在多个并行卷积操作中使用不同的膨胀率,从而能够在特征编码过程中丰富尺度信息。此外,Yang et al.[20]提出在ASPP中使用密集连接,以使最终输出的特征涵盖大范围的语义信息。另外,为了探索全局上下文信息的有效性,Zhao et al.[21]提出使用全局平均池化替代空洞卷积来捕获全局图像特征。
另一方面,同类内的特征聚合有助于提高分割质量。OCNet [37]引入了对象上下文池化以获得统一类别特征表示,聚合后的特征更具判别性。类似地,DANet [38]从注意力的角度进行特征聚合,该模型利用空间与通道注意力来自适应地融合空间和通道维度上的相似特征。而在 [39],中,通过通道注意力机制引入注意力互补模块,以选择性地探索RGB和深度图像中的互补特征。同时,为了提升计算效率,CCNet [40]包含了一个交叉注意力模块,以简化注意力传播过程。上述模型能够实现令人满意的分割性能,但它们带来了巨大的计算负担,使其难以应用于实际系统。
B. 实时语义分割
近年来,已提出多种实时分割方法[24]–[26],[29],[30],[41]–[46]以降低计算成本。由于预训练主干网络 [17],[18]能够提供出色的特征编码能力,一些方法 [29],[30],[41],[42]专注于创新解码器结构以应对实时分割任务。ICNet [41]将PSPNet [21]嵌入级联结构中,并以1/4×的输入图像馈送网络。BiseNet [29]引入双分支网络以保留空间信息并获得足够的感受野。为了降低整体计算成本,BiseNet将输入图像缩放至 768 × 1536大小。DFANet [42]复制轻量级主干网络并执行跨层级特征聚合以捕获判别性特征。SwiftNet [30]结合轻量级ResNet 18[17]骨干网络,并在多分辨率下融合特征以生成精确的分割结果。Donget al. [45]提出基于MobileNetV 2[33],的独特ASPP,以尽可能利用多尺度信息。得益于预训练主干网络,上述方法能够实现令人满意的性能。然而,它们在推理过程中仍需要较高的计算成本。
在追求高计算效率方面,一些轻量级模型 [24]–[28],[43] 更加注重减少所用参数的数量。ENet [24] 开发了一种极轻量级架构,仅使用0.4M参数构建模型。ESPNet [25]提出了一种高效的空洞空间金字塔模块以提取多尺度特征,该模型总共具有0.4M参数。ERFNet [43]由2.1M参数构成,并采用分解卷积来提高计算效率。FSSNet [26]仅使用0.2M参数即可完成实时分割任务。这类轻量级网络适用于资源受限设备,但有时会导致分割精度下降。
为了弥合高性能模型与轻量级模型之间的差距,知识蒸馏[47]为紧凑模型从复杂模型中学习有用知识提供了一种实用的方法。王和尹[48]对知识蒸馏技术在多个领域的应用进行了全面综述,有助于理解知识蒸馏的技术细节。在[49], Liu等提出使用成对蒸馏和整体蒸馏技术从教师分割模型中提取知识。此外,He等[50]提出使用预训练自编码器进行知识蒸馏,从而使知识能够以简化形式被重新解释。同时,另一个亲和性蒸馏模块被用于为学生模型提供长距离依赖关系。因此,知识蒸馏方法具有作为后处理技术进一步优化模型的巨大潜力。在本工作中,我们主要致力于构建一种新颖的轻量级实时分割模型。在没有任何来自复杂模型的知识迁移的情况下,我们最优的模型 PCNet*仅有1.5M参数,但能产生准确的预测结果。
C. 高效的层设计
多尺度信息和感受野对分割性能有显著影响。为了生成高质量的图像描述符,[51]中提出了SDC以扩大感受野,使模型能够应对图像描述问题。在分割任务方面,许多高性能模型[19]–[21],[52]通过精心设计的模块执行多尺度特征提取。例如,ASPP [19]利用不同的空洞卷积方案来获取判别性特征。金字塔池化模块[21]融合由四种不同层级的池化操作生成的子区域特征。密集ASPP [20]模块引入了密集连接,使特征覆盖比ASPP更大的尺度范围。此外,为了提高效率,QGNet [53]提出了一种新方法,将目标掩码分解为线性四叉树。
对于大多数实时分割模型而言,它们必须关注每一层的操作效率。ESPNet [25]应用空洞卷积的空间金字塔来获取较大的有效感受野。在金字塔池化之后使用分层特征融合操作,以补偿严重的网格伪影。ERFNet [43]使用分解卷积来提高计算效率,同时保持相当的精度。在我们的工作中,所提出的PC层利用异构卷积在大感受野中生成平衡的采样权重分布,从而具备产生判别性表示的能力。
D. 倒置残差
由于残差学习 [17]缓解了梯度消失问题,因此可以训练具有深层结构的模型以获得强大的表示能力。为了增强轻量级模型的表示能力,MobileNetV2[33]引入了带有线性瓶颈结构的倒置残差,以捕获嵌入在低维表示中的关键信息。结合深度可分离卷积 [18], ,倒置残差在保持一定表示能力的同时实现了高计算效率。我们采用类似结构构建了所提出的PC块。为进一步降低计算成本,PC‐lite模块设计了较小的扩展比。
III. 方法论
在本节中,我们首先介绍所提出的并行互补层。接着,为了将PC层集成到构建模块中,我们阐述了PC块及其轻量级版本的结构。最后,我们以编码器‐解码器框架的形式构建了并行互补网络。
A. 并行互补层
如第I节所述,堆叠方法会导致严重依赖局部特征的问题,而扩张方式 tends to lose essential local features。为了克服上述缺点,我们提出了并行互补层 (PC层)以增强特征提取能力。PC层包含两个并行的卷积操作,即普通卷积和空洞卷积。这两个操作的设置相同,仅膨胀率不同。当PC层用于执行下采样时,步长设置为 2。此外,我们采用深度可分离卷积来提取特征,而非普通卷积。具体而言,深度可分离卷积将操作的参数减少了 c倍,其中c表示该操作的通道数。图3展示了PC层的结构。图3(b)表示PC层用于下采样特征时的结构。
PC层的主要优势来自于两种异构卷积提取特征之间的互补关系。实际上,多尺度特征在提升分割精度方面起着重要作用。例如,Deeplabv2[19]引入了ASPP来提取多尺度特征方面,ESNet [28]提出了PFCU来捕获多尺度信息,而ESPnet [25]设计了ESP模块以聚合来自不同尺度的特征。然而,模块内过多的独立并行操作也会影响效率。为了在性能和效率之间取得平衡,我们在PC层中仅使用一个空洞卷积来提供来自不同尺度的特征。然而,一个问题在于互补关系如何影响模型的分割性能。在[19],中,ASPP选择三个相对较大的膨胀率(6, 12, 18)来提取特征,而PFCU [28]则采用(2,5,9)作为三个并行分解卷积的膨胀率。对于PC层而言,较大的膨胀率有助于对大物体进行分类。然而,较大的膨胀率不可避免地会使模型在处理小物体时产生混淆,因为它会引入来自其他类别的冗余特征。另一方面,当膨胀率较小时,互补关系过弱,无法从不同尺度提供必要的特征。因此,我们在消融实验部分进一步研究了互补关系。结果表明,合适的膨胀率有助于提高分割精度。
B. PC块
由于来自不同尺度的互补特征能够提升分割性能,我们构建了以PC层作为基础特征提取模块的并行互补块( PC块)。一方面,PC块擅长处理在信息保持方面较为脆弱的低维特征。这主要是因为我们的PC块基于倒置残差[33]结构设计而成。倒置残差中采用了通道扩展策略,以保证强大的非线性变换能力。此外,线性瓶颈可防止低维数据中嵌入的信息被非线性激活函数破坏。因此,PC块能够有效利用低维特征。另一方面,PC块具有轻量级和高效的特点。较小的扩展率降低了参数量和计算成本,同时性能仍相对高于其他竞争对手[29],[41]。接下来我们将详细描述所提出的PC块的结构。
一个PC块由三个不同的层组成,即投影层、变换层和线性瓶颈层。投影层采用一个 1×1卷积将压缩后的输入数据投影到高维空间。尽管这增加了参数和计算成本,但扩展后的特征获得了优异的表示能力,从而在一定程度上缓解了非线性操作后信息丢失的问题。变换层主要负责特征变换。我们使用PC层来构建变换层。所提出的PC层具有较大的感受野,并执行均衡采样。因此,将PC层集成作为变换层使得整个块对捕获丰富的尺度信息更加敏感。之后,再添加另一个逐像素求和操作以生成变换后的特征。详细结构如图5a所示。为了提升
为了提高计算效率,我们降低了扩展比例,并使用拼接操作来替代逐像素求和操作,如图5b所示。线性瓶颈层在构建时未使用ReLU激活操作,以防止非线性破坏过多细节。当输入通道数等于输出通道数或模块的步幅为1时,我们还使用捷径进行残差学习。需要注意的是,PC块仅用于说明 PC层的有效性,最终采用PC‐lite模块进行单元化以构建所提出的模型。
表I展示了PC‐lite模块的实现。对于输入特征C × H × W,投影层执行通道扩展以生成 k²C通道的高维特征,其中k表示扩展比。然后,变换层利用异构卷积生成互补特征,并将它们拼接起来形成与原始倒置残差类似的kC通道特征。最后,通过线性瓶颈层生成输出为C′×H × W。与倒置残差相比,PC‐LITE模块减少了参数和计算成本,减少了近四分之一。具体来说,假设我们有一个输入为C×H × W,倒残差块总共具有12C²+54C参数,而PC‐LITE仅具有9C²+ 54C参数。
C. 网络结构
我们提出的并行互补网络(PCNet)采用编码器‐解码器结构。与大多数现代轻量级分割模型设计不同,我们采用了较大的下采样率以保持高效率。另一个优势是,较大的下采样率有助于增加网络深度,从而提升模型的表示能力。此外,我们期望利用低层特征来优化最终的分割预测。原因是低层特征能够保留空间细节,有助于提供准确的位置信息。
PCNet的结构包含两个主要部分,即编码器和解码器,如图4所示。具体而言,编码器包含一个快速下采样模块(FDM)和一个特征提取器。FDM旨在实现快速下采样,以提高特征提取器的计算效率。值得注意的是,我们在 FDM中仅使用带步长的普通卷积,而不是轻量级的深度可分离卷积。随后,特征提取器由两组PC块(PCG)构成,这两组分别包含n₁和n₂个PC块。在最佳模型中,第二组的输入特征是通过将第一组的输出特征与FDM的输出特征进行拼接而形成的。FDM的特征。我们简单采用双线性插值来对齐两个不同尺寸的特征图。此外,我们在每组的第一个PC块中执行下采样。因此,该网络的最终下采样率为32。解码器由高层特征融合单元(HLF)和分类器组成。HLF旨在融合来自两组PC块的两种不同尺寸的高层特征,HLF的输出被送入分类器以生成最终的分割预测。如前所述,我们将FDM的输出引入分类器,以提供位置信息和空间细节,从而优化分割结果。最后,我们直接应用双线性插值对预测结果进行上采样。我们使用交叉熵损失作为主要的目标损失函数来优化整个网络,其可定义为:
$$
\text{CELoss} = \frac{1}{N}\sum_i L_i = \frac{1}{N}\sum_i -\log\left(\frac{e^{p_i}}{\sum_j e^{p_j}}\right)
$$
IV. 实验
为了评估我们PCNet的性能,我们在具有挑战性的基准数据集CityScapes [55]和CamVid [56]上进行了实验。在本节中,我们首先描述实验的实现细节。然后对所提出方法进行消融实验并加以讨论。最后,我们与几种最先进的实时分割算法进行了对比实验。
A. 实现细节
我们提出的模型基于PyTorch实现,并进行端到端训练,无需任何其他后处理(如条件随机场)。采用交叉熵损失作为目标函数。我们使用小批量随机梯度下降(SGD)[57]来优化网络,动量为0.9,权重衰减为5e⁻⁴,每次迭代的批次大小设置为16。参照[19],,我们也采用“poly”学习率策略,其中初始学习率每轮迭代乘以$(1− \frac{\text{iter}}{\text{maxiter}})^{\text{power}}$,幂次为0.9。训练的初始学习率为1e⁻²,实验在 2× RTX 2080Ti上进行。为避免过拟合,在预处理中采用了常见的数据增强方法,包括对原始图像进行范围为[0.5, 2]的随机缩放,以及以0.5的概率在水平方向进行图像翻转。
B. 数据集和评价指标
1) 数据集:
我们在两个公开道路场景数据集上评估了所提出的 PCNet:CityScapes [55]和CamVid [56]。每个数据集将在以下内容中进行介绍。
a) CityScapes : 该数据集主要关注包含大量成对数据的城市街道场景的语义理解。具体而言,CityScapes 包含从 50 个城市采集的 5000 张精细标注图像和另外 20000 张粗糙标注图像。我们仅使用精细标注图像来训练模型,并将这些图像整体划分为 2975/500/1525 用于训练/验证/测试。每张图像的每个像素都被标注为 19 个预定义类别之一,包括汽车、人、自行车等。每张图像的分辨率为 1024×2048。对于许多消融实验,我们通过从图像中随机裁剪出 512×1024的图像块来训练所提出的模型。为了获得最佳性能,我们使用全分辨率进行训练。
b) CamVid : CamVid是一个从驾驶中的汽车视角拍摄的道路场景数据集。该数据集包含701张标注图像。按照 SegNet [22],,该数据集被划分为367张训练图像、101张验证图像和233张测试图像。该数据集包含11个不同类别,分辨率为 960× 720。
2) 指标:
结果采用广泛用于语义分割和场景理解中的评估指标平均交并比(MIoU)进行报告。其可表示为以下公式:
$$
\text{Mean IoU} = \frac{1}{n_{\text{cls}}} \sum_{i=1}^{n_{\text{cls}}} \frac{n_{ii}}{\sum_j n_{ij} + \sum_j n_{ji} - n_{ii}}
$$
其中 $n_{ij}$ 表示被预测为属于类别j的类别i的像素数量。为了评估推理速度,我们对100次前向计算的总时间取平均值。浮点运算次数和参数也在结果表中列出。
C. 消融实验
在本节中,我们在CityScapes上以 512 × 1024输入分辨率进行大量实验,以开展消融实验。我们首先验证 PC层的有效性,并研究互补卷积的扩张率对结果的影响。接着,采用不同的模块结构比较分割性能,以确定最佳的基础模块。最后,为了找到最优的网络结构,我们探讨了特征提取器的深度的影响。
1) PC块的有效性:
为了研究PC块的有效性,我们首先在相同的网络结构内将其与原始倒置残差进行比较。基本网络结构由(n₁= 4,n₂= 8)构成。基线模块是一个带有 3×3深度可分离卷积的倒置残差。表II显示,该基线在 Cityscapes验证集上的平均交并比仅为67.2%。随后,我们扩大深度可分离卷积的卷积核大小。当卷积核大小为 5×5时,平均交并比从67.2%提升至69.8%,而当卷积核大小为 7 × 7时,模型的平均交并比达到69.4%。分割精度的提升表明,增大卷积核大小是一种有效的高性能实现策略。IR-3× 3‐dₙ 表示该模型使用空洞卷积替代普通卷积。结果表明,零权重采样点会导致性能下降。同时,直接将堆叠方法应用于模型中也会导致模型性能降低。然而,当堆叠方法与空洞卷积结合时,其分割精度略有提升。
PC-(k,d)和PC-lite-(k,d)表示该模块由卷积核大小为k ×k的普通卷积和膨胀率为d的空洞卷积构成。PC‐(3,2)在 CityScapes验证集上达到了70.8%的平均交并比,相较于 IR‐5 × 5、IR‐3× 3‐d₂以及堆叠方法有显著提升。这一令人鼓舞的结果得益于PC层能够生成具有判别性的特征表示。此外,PC‐lite模块被设计用于降低计算复杂度。在相同网络结构下,PC‐lite‐(3,2)相比空洞或堆叠方式节省了大量参数,同时仍保持高性能。将网络深度增加至(n₁=10, n₂= 8)后,PC‐lite‐(3,2)‐deep取得了与PC‐(3,2)相当的平均交并比。我们还对不同方法的高层特征进行了定性比较,以说明PC层的有效性。图6展示了高层特征相似性的可视化结果。我们随机选取一个点,并计算该点与整个特征图之间的余弦相似度。结果表明,PC层生成的特征比其他方法更清晰,这意味着PC层中某一类别的高层特征与其他类别之间的相似性更少。
2) 互补关系的消融:
我们对膨胀率进行消融实验,以研究互补关系如何影响分割质量。
我们将采用不同基础模块的两种PCNet作为基线模型,以研究特征之间的相关性。图7总结了实验结果。绿点表示由 3×3和空洞卷积组成PC层的基础模块。红点则将 3×3卷积替换为 5 × 5卷积。当我们增大空洞卷积的膨胀率时,绿线显示带有较大膨胀率的空洞卷积的PC‐lite模块的分割性能逐渐下降。因此,扩张率为4的空洞卷积是利用 3 × 3卷积中互补特征的最有效选择。此外,红线也显示出几乎相同的变化趋势。因此,最佳膨胀率能够为PC层中的普通卷积提供最优的互补特征,从而增强模块的表示能力。
3) 与其他方法的定量比较:
在本部分中,我们进一步与其他轻量级模块 {v2} 进行定量比较。该比较综合考虑了参数量、有效感受野和平交并比,结果总结于表III。按照 [25], 中的方法,我们使用相同的设置来计算参数量和有效感受野。ESP模块 [25] 通过使用数十个并行空洞卷积实现了较少的参数和较大的感受野。然而,其低维表示使得该模块难以提升生成判别性特征的能力。在PC块中,特征被扩展在执行变换时,有助于模块利用压缩在低维特征中的信息。分解卷积单元(FCU)[28]通过堆叠分解卷积来构建高效结构。回顾表II中Stack-d₂和Stack-d₃的结果,可以看出当堆叠方法与空洞卷积结合时,性能仍然比普通的 5 × 5卷积更差。值得注意的是,此处我们在Stack-d₂和 Stack-d₃中未使用分解卷积,因为分解卷积与普通卷积几乎具有相同的效果,只是分解卷积能够减少参数量。我们还在表III中报告了各模块的浮点运算次数,其评估采用 100×64×64输入。结果表明,我们提出的PC‐lite模块能够在相对较低的计算成本下实现更高的性能。
同时,PC块的结构在某种程度上与其他一些模块类似,例如EDA‐ASPP [27]和ESNet [28]中的PFCU。然而,“并行”的含义有所不同。对于ASPP和PFCU而言,并行卷积均为空洞卷积,这些并行空洞卷积之间的互补关系丰富了尺度信息,使得整个模块近似于一个大而密集的空洞卷积,尤其适用于编码器后多尺度特征的提取。而对于 PC块,并行操作的设计旨在彼此提供互补特征,从而使该模块近似于一个相对较大且稀疏的卷积。此外,由于具有高效率,PC块能够被应用于特征提取器中,以优化特征编码过程。因此,所提出的PC块更有利于实时分割任务。
4) 模块结构:
在本小节中,我们的基线网络由 PC‐lite‐(3,2)模块组成。我们在PC‐lite模块中使用全局平均池化(GAP)操作来提供全局上下文,以替代互补的空洞卷积。如表V所示,APS为8的PC‐lite模块仅达到64.0% 的平均交并比(Mean IoU),低于其竞争对手 PC‐lite‐(3,2)。当APS为= 4时,性能从64.0%略微提升至64.5%,这表明全局上下文对普通卷积生成的特征贡献较小。此外,我们在PC‐lite模块内将拼接操作替换为逐点相加操作,形成“PC‐lite‐(3,2)‐Add”模块。结果表明,该方法不仅减少了额外参数,还提高了分割精度。然而,“PC‐lite‐(3,2)‐Add”模块无法达到具有更深结构的原始 PC‐lite模块的更高性能。综上所述,PC‐lite模块比其他模块更高效。
5) 网络结构:
我们进一步从特征提取器的角度出发,对PCNet进行优化实验。表VII展示了不同PCNet网络结构的实验结果。当保持n₂= 8固定时,具有n₁= 10的 PCNet获得了最佳的分割精度。同时,当固定n₁= 10时, PCNet在使用n₂= 8时达到最佳性能。此外,为了证明随着PC数量的增加性能可以进一步提升,在每个PC模块组中,我们分别增加了6个和4个PC块。结果如表VII最后一行所示。为了平衡推理速度和性能,我们选择n₁= 10和n₂= 8作为上限。此外,受倒置残差结构[33],的启发,我们通过通道扩展和线性瓶颈重新设计了 HLF。最初,HLF由两个深度可分离卷积组成。我们首先将两种不同尺寸的特征进行拼接,然后输入到接下来的两个卷积中。对于重新设计的HLF‐LB,我们首先将两种不同尺寸的特征投影到高维空间,并分别对其进行变换。最后,我们对齐两种特征的尺寸,并将特征投影回低维表示。表VI展示了关于HLF的消融实验结果,可以看出 HLF‐LB将分割精度略微提高了0.1%。
6) PCNet*:
在本部分中,我们介绍性能最优的模型 PCNet*的结构。实际上,PCNet*与PCNet具有相同的结构,唯一的区别是将第二组中的PC块替换为大卷积核PC模块。在PCNet的第二组中,我们使用了8个PC块来提取深层语义信息;而在PCNet*中,我们将这8个块替换为5个大卷积核PC块。每个大卷积核PC块中普通卷积的卷积核大小设置为 5 × 5;对于空洞卷积,卷积核大小仍为 3× 3,膨胀率设置为3。此项修改的主要目的是提升 PCNet的效率,不仅有助于减少整体参数和计算成本,还有助于优化最终的分割预测结果。
D. 结果
1) CityScapes:
由于我们所提出模型的计算成本较低,因此使用全分辨率输入来训练最佳模型。我们针对多种最先进的方法进行了广泛的对比实验。表IV总结了一些实时分割模型在CityScapes测试集上的逐类准确率结果。可以得出结论,我们提出的PCNet*在大多数类别上的性能优于其他模型,仅在“Pole”和“Bicycle”两个类别上除外。另一方面,我们在推理速度、计算成本、参数量和分割性能方面与其他方法进行了全面比较,结果如表VIII所示。我们不使用TensorRT进行加速。PCNet的速度评估分别在Nvidia GTX 2080Ti GPU和Titan X GPU上进行。为了公平比较,表VIII列出了图像分辨率和GPU类型。在评估过程中,我们未添加任何测试增强策略(即多尺度测试)。
表VIII的前两行展示了两种最先进的高性能分割算法的结果。与这些算法相比,PCNet大大降低了计算复杂度,并以更快的推理速度运行。例如,所提出的PC Net相较于PSPNet [21]将计算成本降低了近 34×,并实现了更高的推理速度。接下来,我们还列出了十二种采用预训练主干网络的实时语义分割算法。可以看出,我们的方法仍然具有竞争力。很明显,PCNet比BiSeNet1[29]的平均交并比高出4.3%,并且大大降低了计算复杂度。与DFANet‐A [42],相比, PCNet也能实现更高的性能。SwiftNetRN‐18[30]最终借助预训练骨干网络达到了75.5%的平均交并比。值得注意的是,当我们从零开始训练模型时,PCNet在CityScapes验证集上的平均交并比高于SwiftNetRN‐18。第三部分报告了轻量级分割模型在从零开始训练时的性能。我们提出的 PCNet在输入尺寸为 640 × 360的图像时仅占用1.32 GFLOPs,比ENet [24]和CGNet [54]更高效。为了公平比较,我们重新实现了CGNet [54],并在GTX 2080Ti上以 1024 × 2048分辨率输入评估其帧率。结果表明PCNet具有较强的竞争力。在分割性能方面,所提出的 PCNet相较于多种最先进的方法能够提供不错的性能。此外,我们进一步优化了PCNet的结构,形成了我们的最佳模型PCNet*。PCNet*相比PCNet使用了更少的参数,同时实现了更好的性能。总体而言,PCNet在精度和速度方面以较少的参数提升了分割性能。
2) 关于知识蒸馏的讨论:
作为一种将知识从复杂模型转移到紧凑模型的新技术,知识蒸馏能够在不增加任何计算成本的情况下提升轻量级模型的分割精度。王和尹 [48]对该技术进行了全面阐述。这种师生训练机制在一定程度上有助于提升紧凑模型的性能。例如, KD‐MobileNetV2[50]采用ResNet50作为教师网络,将知识蒸馏至MobileNetV2网络;KD‐Resnet18[49]提出一种新颖的结构化蒸馏方法,将知识迁移至ResNet‐18模型。Ma et. al.[62]提出一种专门的集成方法,以弥合多个异构数据源之间的差距。上述方法从训练过程的角度为优化性能提供了诸多启示。与前述两种方法[49],[50],相比,我们提出的PCNet在无需引入额外知识的情况下也实现了相当可观的性能,证明了PCNet的有效性。因此,知识蒸馏在轻量级网络的训练过程中仍具有巨大潜力。
3) CamVid:
我们还在CamVid数据集上评估了所提出的PCNet。注意,在[22],[24],[26],中它们都将图像下采样到 480 × 360进行分类。而按照[29],,我们使用全分辨率来训练模型。结果如表IX所示,我们采用每类类别准确率、参数量和平均交并比,以将我们的模型与其他最先进的模型进行比较。即使未在ImageNet上进行预训练, PCNet也能达到相当的性能平均交并比。同时,所提出的网络参数量少于其他高性能模型。因此,PCNet 能够胜任实时分割任务。
E. 定性结果
图8展示了ESPNet [25],BiSeNet1[29]和PCNet的结果。ESPNet的预测结果中存在网格伪影。尽管采用了分层特征融合来缓解网格问题,但仍无法弥补由过大膨胀率引起副作用的影响。BiseNet1的结果表明,大尺寸物体的分割效果仍有进一步提升的空间。更重要的是,我们提出的 PCNet相比其他实时分割方法取得了更好的结果。一方面, PC层利用高度相关的异构卷积在无需过大的膨胀率的情况下解决了网格伪影问题;另一方面,PC层能够生成互补特征,提供合适感受野以提高对大尺寸物体的分割精度。总体而言,我们提出的PCNet在实现更优分割性能的同时,效率也优于这些最先进的实时分割模型。
V. 结论
本文提出了一种轻量级实时分割网络——并行互补网络(Parallel Complement Network),在分割性能和推理速度之间实现了更好的平衡。该网络采用PC层生成具有大感受野的互补特征,使模型能够学习不同类别之间的判别性表示。此外,我们设计了将PC层集成于倒置残差结构中的并行互补块(Parallel Complement block)。在 CityScapes和CamVid数据集上的大量实验表明,我们的模型在从零开始训练的情况下达到了最高的精度。结果还表明,所提出的PCNet在网络的分割精度、推理速度和模型参数之间取得了满意的平衡。实时语义分割在自动驾驶应用中需求迫切,能够在短时间内提供可靠的场景理解和预测。本研究有助于实现实时场景理解与环境交互,对智能交通应用具有重要价值。
43

被折叠的 条评论
为什么被折叠?



