集智书童 | 告别NMS！干翻YOLOPX，RT-DETR+GCA重构自动驾驶感知，RMT-PPAD三任务84.9 mAP50领跑-优快云博客

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/hEgeL7bXpUDR-5-MAVWwMw

精简阅读版本

本文主要解决了什么问题

1. 多任务学习中的负迁移问题：当多个任务一起训练时，由于特征冲突，单个任务的性能会下降，这是自动驾驶多任务感知中的一个关键挑战。
2. 手动设计任务特定结构的复杂性：先前方法需要基于先验知识手动设计特定任务结构，增加了设计复杂性和工程成本。
3. 车道线分割中训练与测试标签的不一致性问题：先前工作使用8像素宽车道线训练模型，但使用2像素宽车道线评估性能，导致评估结果不正确。
4. 在保持实时性能的同时实现高精度：自动驾驶系统需要兼顾精度和实时性能，推理速度需超过30 FPS以匹配相机采样率。

本文的核心创新是什么

1. 提出了一种带有Adapter的门控控制模块（GCA）：这是一种轻量级模块，能够提取任务特定特征，保留共享表征，并自适应地融合这些特征以缓解任务间的负迁移。
2. 设计了自适应分割解码器：该解码器能够自动学习多尺度特征的任务特定权重，避免了手动设计任务特定结构的需求，同时平衡了细节信息和全局上下文。
3. 解决了车道线分割中的标签不一致问题：通过将测试数据集的车道标签宽度扩展到与训练数据集相同的宽度，提供了更一致和公平的评估方法。
4. 基于RT-DETR构建了实时多任务模型RMT-PPAD：该模型在一个网络中联合处理目标检测、可驾驶区域分割和车道线分割，避免了重量级后处理如非极大值抑制（NMS）。

结果相较于以前的方法有哪些提升

1. 在BDD100K数据集上实现了最先进的性能：
- • 目标检测：mAP50达到84.9%，召回率达到95.4%
- • 可驾驶区域分割：mIoU为92.6%
- • 车道线分割：IoU为56.8%，准确率为84.7%
2. 保持了实时推理性能：推理速度达到32.6 FPS，满足自动驾驶系统的实时性要求（超过30 FPS）。
3. 在真实场景测试中表现出稳定的性能：与YOLOPX相比，RMT-PPAD在车道线分割上更平滑，车辆检测更准确，特别是在检测远距离和部分遮挡车辆方面表现更优。
4. 通过消融实验验证了各模块的有效性：
- • GCA模块有效缓解了任务间的负迁移，使得模型在mAP50和mIoU方面甚至超越了单任务基线模型
- • 自适应分割解码器能够自动学习并为不同尺度的特征图分配适当的权重，符合不同任务的需求

局限性总结

1. 模型参数量相对较大：论文提到"尽管RMT-PPAD包含相对较多的参数，但仍实现了实时推理"，表明模型在参数效率方面还有改进空间。
2. 训练时间较长：在BDD100K数据集上训练模型需要约70小时，这可能限制了模型的快速迭代和部署。
3. 尚未研究模型压缩技术：论文在结论中提到未来将研究模型压缩技术以减少参数量，表明当前模型在轻量化方面还有提升空间。

深入阅读版本

导读

自动驾驶系统依赖于全景驾驶感知，这需要兼顾精度和实时性能。在本工作中，作者提出了RMT-PPAD，一种基于Transformer的实时多任务模型，可联合执行目标检测、可驾驶区域分割和车道线分割。作者引入了一个轻量级模块——带有 Adapter 的门控机制，以自适应地融合共享特征和任务特定特征，有效缓解了任务间的负迁移。此外，作者设计了一个自适应分割解码器，在训练阶段自动学习多尺度特征的权重，避免了为不同分割任务手动设计任务特定结构的需要。作者还识别并解决了车道线分割中训练与测试标签之间的一致性问题，从而实现了更公平的评估。在BDD100K数据集上的实验表明，RMT-PPAD取得了最先进的性能，目标检测的mAP50达到84.9%，召回率达到95.4%；可驾驶区域分割的mIoU为92.6%；车道线分割的IoU为56.8%，准确率为84.7%。推理速度达到32.6 FPS。此外，作者引入了真实场景来评估RMT-PPAD的实际性能。结果表明，RMT-PPAD始终能够提供稳定的性能。

源代码和预训练模型 https://github.com/JiayuanWang-JW/RMT-PPAD

1. 引言

实时环境感知[1][2]。全景驾驶感知中的基本任务包括目标检测、可驾驶区域分割和车道线分割[3][5]，如图1所示。为每个任务部署独立的车载模型会导致显著的计算成本增加，同时也会影响实时性能。多任务学习（MTL）通过训练单个模型来联合处理所有任务，是解决这一挑战的潜在方案。它允许共享特征表示，从而提高计算效率。此外，MTL模型可以利用任务之间的关系实现更连贯的场景解释[5][7]。例如，道路分割为目标检测提供上下文信息。车道线线索有助于理解可驾驶区域。重要的是，MTL模型还必须满足实时推理要求，推理速度需超过30 FPS以匹配相机采样率。由于车载计算能力的有限性和感知任务的高复杂性[8][10]，在MTL中实现三个任务的高精度同时保持实时性是一个极具挑战性的问题。

已有研究表明，多任务学习（MTL）在全景驾驶感知中具有潜力，但仍存在三个局限性。首要的基本挑战是任务间的负迁移：由于特征冲突，当多个任务一起训练时，单个任务的性能会下降。例如，早期的YOLOP方法[5]表明，将检测和分割任务简单结合可能导致次优结果。第二个挑战是模型通常需要基于先验知识手动设计特定任务的结构才能获得良好性能。例如，YOLOPX[3]采用针对分割任务的独立头结构，这增加了设计复杂性和工程成本。第三个局限性在于车道线分割的评估。作者发现先前工作中的训练和测试标签存在不一致性，导致评估结果不正确。例如，先前相关工作[3]-[5], [11]-[13]遵循[14]的工作，使用8像素宽的车道线训练模型，并使用2像素宽的车道线评估模型性能。这种不一致性导致性能更好的模型被评估得较差，因为它们正确预测了8像素宽的车道线，但与2像素宽的测试标签相比，额外的6像素宽度被视为错误预测。

为解决或缓解上述局限性，作者提出了一种基于Transformer的实时多任务模型，命名为RMTPPAD。在检测部分，RMT-PPAD基于RTDETR[15]这一目标检测模型构建，避免了重量级后处理如非极大值抑制（NMS），并能在全景驾驶感知任务中实现实时推理。对于分割任务，作者结合了来自不同语义层级的多尺度特征。作者提出了一种可学习的权重矩阵，用于调整每个尺度对每个任务的贡献。这使得模型能够在训练阶段自动学习特定任务的特征偏好，避免了手动设计特定任务结构。此外，RMT-PPAD的主要贡献是提出了一种带有 Adapter 的轻量级门控控制模块（GCA）。具体而言， Adapter 在提取特定任务特征的同时保留共享表征，门控模块随后自适应地融合这些特征以缓解任务间的负迁移。GCA模块设计轻量，因此RMT-PPAD在保持实时性能的同时实现了性能提升。RMT-PPAD的另一个重要贡献是解决了车道线分割中的标签不一致问题。通过实验和理论分析，作者证明使用训练和测试中不同的车道标签宽度进行评估是不公平的，这会错误反映模型的实际性能。为解决此问题，作者使训练和测试之间的车道标签表示保持一致。具体而言，作者将测试数据集的车道标签宽度扩展到与训练数据集相同的宽度。这种简单而有效的修正为车道线分割提供了更一致和公平的评估。

作者通过实验和消融研究来验证作者提出的模型和模块的有效性。作者在BDD100K [16]数据集上评估了RMT-PPAD和开源全景驾驶感知多任务学习（MTL）模型。结果表明，RMT-PPAD在所有任务（目标检测、可驾驶区域分割和车道线分割）上均达到了最先进的（SOTA）性能。同时，RMT-PPAD仍能实现实时推理。此外，作者还测试了RMT-PPAD，并在公共数据集之外的真实驾驶场景中将其与YOLOPX进行了比较。可视化结果表明，RMT-PPAD具有良好的泛化能力，并在各种条件下表现可靠。作者的主要贡献可以总结如下：

1. 作者设计了一个没有花哨功能的实时Transformer多任务模型（RMT-PPAD），该模型在一个网络中联合处理目标检测、可驾驶区域分割和车道线分割。
2. 作者提出了一种轻量级的GCA模块，该模块提取任务特定特征，保留共享表征，并自适应地融合它们以减轻任务间的负迁移。
3. 作者设计了一种自适应分割解码器，该解码器能够自动学习多尺度特征的任务特定权重。这消除了手动设计任务特定结构的需求，同时平衡了细节信息和全局上下文。
4. 作者识别出先前工作中用于训练和测试的车道线标签宽度存在不一致性。为了公平且真实地反映模型的车道线分割性能，作者提出了一种简单而有效的方法，将测试标签宽度扩展至与训练数据集相同的宽度。
5. 作者在BDD100K数据集和真实世界驾驶场景上进行了广泛的实验和消融研究，以验证RMT-PPAD的有效性，该模型在全景驾驶感知的所有任务中均优于开源多任务学习模型，实现了SOTA性能。

2. 相关工作

A. 目标检测

目标检测旨在定位和识别图像中的物体。由于深度学习的快速发展，检测研究方向已从传统方法转向基于深度学习的方法。基于深度学习的方法可以进一步分为基于 Anchor 点的检测器[17], [18]、 Anchor-Free 点检测器[19], [20]和Transformer检测器[21], [22]。

基于 Anchor 点的方法在图像特征图上生成密集的、具有不同尺度和长宽比的 Anchor 框。随后，根据特定的标签分配策略，将这些 Anchor 框分类为正样本或负样本。模型接着预测正样本的类别和边界框偏移量，以输出最终的检测结果。然而，基于 Anchor 点的方法面临诸如对超参数敏感以及依赖先验知识来确定长宽比等挑战。为解决这些局限性，提出了 Anchor-Free 点方法，该方法允许模型直接学习目标的位置和形状，而不是预定义的 Anchor 点。为避免手工设计的组件，如 Anchor 点生成和非极大值抑制（NMS）过程，提出了基于Transformer的端到端方法（DETR [21]）。该方法通过直接的集合预测问题消除了对先验知识设计的需要。具体而言，DETR直接预测固定数量的目标 Query ，每个 Query 对应一个潜在目标，并使用二分图匹配损失在预测输出和真实目标之间建立一对一的对应关系。尽管DETR取得了出色的性能，但它需要较高的计算成本。因此，它们难以部署在实时系统中。这一局限性限制了它们在自动驾驶等时间敏感型应用中的使用。为此，提出了RT-DETR [15]来应对这一挑战。它通过集成高效的混合编码器实现了高效和实时的目标检测。在本工作中，作者基于RT-DETR构建RMT-PPAD，因为它在检测任务中实现了准确率、推理时间和计算复杂度之间的良好平衡。

B. 语义分割

与目标检测不同，语义分割是一种像素级操作。它需要对每个像素进行分类，包括背景。为了实现精确的分割，高分辨率多尺度特征是必不可少的。它们能够捕捉细粒度的空间细节和High-Level语义信息。语义分割方法主要分为基于区域的[23]-[25]、基于全卷积网络和基于transformer[26]，[27]的方法。

基于区域的语义分割首先提出候选区域，并用特征对其进行编码。然后，每个区域独立进行分类，并将预测的标签传播到区域内的所有像素。然而，这种方法在实时推理应用中存在显著局限性，因为它采用多阶段流水线而非端到端流水线。为解决这一局限性，全卷积网络[28]（FCN）被提出。它直接对每个像素进行分类预测。通过用卷积层替换全连接层，FCN能够实现高效的像素级推理和端到端训练。然而，其有限的感受野阻碍了全局上下文建模，常导致粗略的分割结果。为解决这一局限性，DeepLab[29]和PSPNet[30]通过引入多尺度上下文、空洞卷积和金字塔池化模块进一步改进了基于FCN的模型，以更好地处理不同尺度的目标并提高边界精度。近期，基于Transformer的方法被提出，如MaskFormer[26]和Mask2Former[27]。它们将分割问题表述为集合预测问题，其中每个输出包含一个类别和一个表示特定语义区域的软 Mask 。它们使用带有可学习 Query 的Transformer解码器直接预测固定数量的语义 Mask ，而非执行逐像素分类。这使得能够实现端到端分割，并具备更好的全局上下文建模能力和灵活的区域分配。与基于Transformer的检测模型类似，它们难以实现实时性能。

C. 多任务学习

多任务学习MTL旨在通过共享主干网络和独立的 Head 结构，在单个模型中同时执行多个任务。与为每个任务部署单独模型相比，MTL可以降低部署成本并加速推理。这一优势使得MTL非常适合需要实时性能的应用，例如自动驾驶系统ADS。目前，许多近期研究在全景驾驶感知领域采用了MTL，该领域通常包括车辆检测、可驾驶区域分割和车道线分割等任务。例如，YOLOP[5] YOLOP引入了一种简单而有效的架构，在BDD100K数据集上取得了出色的性能。然而，YOLOP存在一个显著问题：负迁移。他们的消融研究表明，与单任务学习相比，除了目标检测的召回率，其他所有指标都下降了。尽管在YOLOP之后提出了几项工作[3]，[4]，[11]，[31]，但它们都没有 Aware 到负迁移问题。然而，负迁移是MTL中的一个经典挑战。必须关注负迁移，以避免性能下降削弱联合学习的优势。

3. 提出方法

A. 模型概述

作者基于RT-DETR [15]设计了RMT-PPAD，该模型由 Backbone 网络、高效混合编码器、六个全局上下文注意力网络（GCA）以及两个任务特定解码器组成。作者提出的模型概述如图2所示。具体而言，作者遵循RTDETR使用高性能GPU网络V2（HGNetV2 1）作为 Backbone 网络来提取特征，其中L为尺度参数。随后，作者将 Backbone 网络最后三个阶段的特征（S3、S4、S5）输入到高效混合编码器中。高效混合编码器由基于注意力的单尺度特征交互（AIFI）和基于CNN的跨尺度特征融合模块（CCFM）组成，用于快速处理多尺度特征。接下来，CCFM输出的多尺度特征图分别输入到三个GCA中，以缓解负迁移挑战（参见第III-B节）。最后，融合后的多尺度特征被输入到检测和分割解码器中，生成用于目标检测、可行驶区域分割和车道线分割的输出（参见第III-C节）。

B. 带 Adapter 的门控

为缓解负迁移挑战，作者提出了GCA模块。该模块能够从共享表征中捕获任务特定特征，并自适应地将其与共享特征融合。该模块允许每个任务强调相关的共享特征，同时抑制不相关的特征，从而减少梯度冲突并缓解负迁移。GCA结构如图3所示。具体而言，它由一个任务 Adapter 和动态门组成。高效混合编码器输出的多尺度特征（S3、S4、S5）分别输入GCA。得益于GCA的轻量级设计，其基于简单的卷积层并采用中间通道缩减以最小化计算开销。因此，作者可以在每个尺度上应用独立的GCA，以有效捕获细粒度的任务特定特征，同时保持实时性能。 Adapter 高效地捕获每个尺度特征的特定任务表征，而不会破坏共享特征。它由一个用于跨通道转换的1x1卷积，随后是一个深度可分离卷积组成。此外，每个模块后使用批量归一化（BN）和Sigmoid线性单元（SiLU）。输出任务特定特征沿通道维度与共享特征连接，形成后续门控的综合表征。

C. 解码器

解码器处理来自编码器的特征图以生成特定任务的预测。这包括预测物体类别、相应的边界框和 Mask 。在作者的工作中，作者使用两个独立的解码器来实现这一功能：检测解码器和分割解码器。作者将逐一介绍它们。

D. 车道线标签和评估指标

在本小节中，作者将证明先前研究中使用的车道线测试标签和指标存在某些显著问题，并提出更合理的车道线测试标签。

在[3]中，作者提出了关于车道线评估指标的两点观点：1. 评估指标IoU（IoU）通常较低。2. 像素精度更能准确反映车道线检测性能。基于这些观点，作者进行了深入探索，以识别潜在原因并评估其合理性。作者通过结合可视化和数值结果的一个实例来演示作者发现的两个问题：

1. 既往研究中用于测试的车道线标签存在不公平性。

为展示这一问题，作者从BDD100K [16]数据集中采用了一个名为b9e91422-944c7a2f的样本。比较图6(b)和6(f)与6(a)，通过可视化评估，YOLOPX的表现远优于A-YOLOM。然而，IoU的定量结果却相反。比较图6(c)和6(g)的结果，IoU结果显示A-YOLOM优于YOLOPX。这种矛盾产生的原因是测试标签使用2像素宽度的车道线，而训练标签使用8像素宽度[14]。因此，预测的 Mask 更加准确，假阳性(FP)率更高，这将负面影响IoU，从而错误地评估模型性能。接下来，作者将使用公式和混淆矩阵来证明这一点。

IoU指标的计算公式如下：

作者检查了先前工作使用的标签（2像素），发现并非所有车道线都严格为2像素，有些为3像素，斜线可能包含平方根值。经过膨胀操作后，部分车道线扩展到8像素，部分扩展到9像素，这取决于原始标签大小，斜线也可能包含平方根值。这种现象也存在于训练样本中。具体来说，作者使用7×7的椭圆形结构元素进行形态学膨胀。水平或垂直的车道线在两个垂直方向上精确扩展3像素。然而，对于斜线，会引入系统误差，因为椭圆形结构元素是一个近似圆形，而非标准圆形。但作者认为这种微小的系统误差是可以接受的。对比图6(d)和图6(h)，IoU指标正确地表明YOLOPX优于AYOLOM，这一结果与视觉评估相符。表1(c)和I(e)显示了相应的混淆矩阵，这表明与表1(b)和I(d)中的先前工作标签相比，经过膨胀的标签预测 Mask 更接近真实标签，TP值更多，FP值更少。这些结果表明，膨胀后的标签与训练标签匹配。因此，作者提出的膨胀标签更准确、更公平地反映了模型的性能。

2. 像素精度指标不能全面反映模型的真正车道线性能。

在先前的研究工作中[3]，[5]，[13]，[31]，它们都使用像素精度（ACC）作为车道线分割的评估指标。然而，它们实际上使用召回率来计算车道线任务的ACC。参考YOLOP[5]车道线精度公式2如下：

该ACC公式不会惩罚过度分割。模型可以将许多额外的背景像素 Token 为车道线，并且仍然能够获得较高的ACC分数，因为FP不包括在该公式中。

E. 损失函数

RMT-PPAD采用端到端结构训练策略。因此，其目标函数包含多个用于不同任务的损失函数。具体而言，它由一个检测损失函数和两个分割损失函数组成。公式如下所示：

4. 实验与结果

在本节中，作者介绍了实验的详细内容，包括数据集、评估指标和设置。随后，作者在BDD100K数据集上评估了RMT-PPAD，并将其与开源方法进行了比较。基于定量和可视化结果，作者分析了性能表现。此外，作者还展示了全面的消融研究，以评估作者提出的模块的有效性。最后，作者呈现了真实场景下的可视化结果。

A. 实验细节

1. 数据集：BDD100K [16] 是自动驾驶研究广泛使用的数据集。它包含100K张标注图像，支持多种感知任务。此外，BDD100K因其多样化的场景类型和天气条件而著称。这种异构性使其特别适合评估应用于全景驾驶感知任务中的模型性能。该数据集分为三个子集：70K张用于训练，10K张用于验证，20K张用于测试。由于测试集的标注不可用，作者遵循先前工作的设置 [4], [5], [11]。所有评估均在验证集上进行。此外，目标检测任务专注于“车辆”类别，包括汽车、公交车、卡车和火车。
2. 评估指标：对于目标检测，作者采用mAP50和召回率作为指标。mAP50衡量在预测边界框与真实框重叠至少50%的情况下，所有类别的平均精度。它反映了模型在定位和分类方面的整体准确性。召回率表示模型检测所有相关目标的能力。它衡量真阳性与真实框总数之比。对于可驾驶区域分割，作者采用平均IoU（mIoU）作为评估指标。它计算预测框与真实框之间的平均重叠度。对于车道线分割，作者在III-D部分已经讨论了评估指标：IoU和ACC。

此外，作者还包含了FPS指标，该指标通过计算模型每秒可以处理多少帧来衡量其速度和效率。FPS也反映了模型处理实时任务的能力。更高的FPS表示更快的模型。FPS的计算公式为：

3. 实验设置与实现：作者在全景驾驶感知任务中比较RMT-PPAD与开源的多目标学习（MTL）方法。具体而言，作者将RMT-PPAD与YOLOPX [3]、A-YOLOM(n)、A-YOLOM(s) [4]、HybridNet [11]和YOLOP [5]进行比较。由于作者修正了车道线分割的标签，为了进行公平比较，作者只能复现开源方法进行比较。

作者使用SGD优化器训练模型，学习率（lr）为0.01，动量为0.9，权重衰减为0.0005。作者以3个epoch的预热阶段开始训练。在此阶段，SGD优化器的动量设置为0.8，偏置的学习率初始化为0.1。作者采用余弦学习率调度来控制训练过程中的学习率，实现渐进和平滑的衰减。此外，作者将输入图像从1280×720调整到640×640。对于损失函数系数，作者设置α=1，β=5，γ=2，λ_H=24，λ_bce=8和λ_tv=8。在推理过程中，作者应用0.45的分割 Mask 阈值用于可驾驶区域，以及0.9的阈值用于车道线。

作者使用45的批处理大小在三个RTX 4090 GPU上训练模型250个epoch，耗时约70小时。由于BDD100K数据集规模庞大，训练模型需要较长时间。因此，作者在一个玩具数据集上进行消融实验。该玩具数据集由从原始BDD100K训练集中随机选取的10K样本和验证集中的2K样本组成。所有训练配置保持不变，仅将训练epoch数减少至200。在这个玩具数据集上的训练大约需要8小时。

所有与FPS相关的评估实验均在单个RTX 4090 GPU上执行，不使用推理加速器，例如TensorRT或ONNX Runtime。并且批量大小设置为1。

B. 实验结果

1. 定量结果：作者评估了RMT-PPAD，并复现了YOLOP^3、YOLOPX4、HybridNet、A-YOLOM(n)和A-YOLOM(s)^6。结果如表3所示，RMT-PPAD在BDD100K数据集上三个任务中均实现了具有竞争力的效率和SOTA性能。具体而言，RMT-PPAD在目标检测任务中取得了最佳的mAP50（84.9%）和召回率（95.4%），超越了所有其他开源模型。在可驾驶区域分割任务中，RMT-PPAD实现了最佳的mIoU（92.6%），表明其在道路理解方面表现优异。在车道线分割任务中，RMT-PPAD实现了最佳的IoU（56.8%）和ACC（84.7%）。正如作者在第III-D节中讨论的，ACC不能惩罚过度分割。因此，IoU能更准确地反映模型的实际性能，因为它不仅考虑了TP和FN，还考虑了FP。尽管RMT-PPAD包含相对较多的参数，但仍实现了实时推理，达到32.6 FPS。由于当前传感器的限制，大多数摄像机以30 FPS的采样率运行。因此，任何推理速度超过30 FPS的模型都可以被认为是实时的。
2. 可视化结果：图8展示了可视化结果。作者展示了在不同驾驶场景下不同方法的对比，包括夜间、雪天、雨天和白天条件。与其他方法相比，RMT-PPAD在所有场景中始终提供更准确和鲁棒的分割和检测结果。

在夜间场景中，RMT-PPAD能够有效分割可驾驶区域和车道线。而其他方法要么产生错误的可驾驶区域部分，要么产生错误、模糊且碎片化的车道线，特别是对于YOLOP、HybridNet和A-YOLOM。在雪天场景中，RMT-PPAD仍然表现出优异的检测性能。而YOLOP和YOLOPX无法从被雪覆盖的背景中区分出车辆，导致将部分建筑物错误地识别为车辆。在雨天场景中，相机镜头上的雨滴给捕获的图像添加了噪声。这破坏了细粒度特征，使分割任务更具挑战性。RMT-PPAD能够有效处理雨天情况。它产生了更准确和更平滑的车道线分割。其他方法在雨景中通常显示出碎片化或不精确的车道 Token 。此外，它们也难以保持准确的可驾驶区域分割，特别是对于YOLOP。最后，在白天场景中，大多数方法表现良好。然而，RMT-PPAD在具有挑战性的情况下表现出更好的鲁棒性。具体来说，RMT-PPAD能够准确检测部分遮挡的车辆。其他方法经常遗漏这些车辆。此外，RMT-PPAD也不受树木阴影的影响。其他方法在阴影下产生碎片化的车道线或错误的可驾驶区域。

3. 分割解码器中的可学习权重：训练完成后，作者检查分割解码器中多尺度特征图[S3、S4和F5]的学习权重。对于可驾驶区域分割，权重为[0.355, 0.156, 0.489]。对于车道线分割，权重为[0.405, 0.442, 0.153]。这些结果与任务需求一致。具体而言，可驾驶区域较大且连续，更受益于High-Level特征，如F5。而车道线较窄且具有细粒度特征，更多依赖Low-Level细节特征，如S3和S4。这些结果表明，作者提出的自适应分割解码器能够在训练阶段自动学习并为不同尺度的特征图分配适当的权重。

C. 消融实验

为评估作者提出的模块，作者提供了三项消融研究。首先，作者通过定量分析评估了多任务学习（MTL）和全局上下文聚合（GCA）的有效性。其次，作者进行了梯度相似性分析，以证明作者的GCA能够缓解跨任务的梯度冲突。最后，作者进行了一项消融研究，以展示分割任务中 Mask 阈值的影响。

1. MTL和GCA的影响：为了评估MTL和所提出的GCA模块的有效性，作者比较了不同配置下的结果，如表4所示。具体而言，作者首先在单个任务上进行训练和评估：仅进行目标检测、仅进行可驾驶区域分割和仅进行车道线分割。这些被视为 Baseline 。此外，作者还包含一个“仅分割”设置，该设置在不进行检测任务的情况下联合训练两个分割任务。此配置用于检查两个分割任务是否相互负面影响或能否从共享学习中获益。然后，作者为所有三个任务训练一个普通的MTL模型。最后，作者将GCA模块集成到普通的MTL模型中，以评估它是否减轻了任务间的负迁移。

实验结果表明，与单一任务分割 Baseline 相比，“仅分割”设置将可驾驶区域分割的mIoU提高了0.3%，并将车道线分割的IoU和ACC均提高了0.1%。这证实了这两个分割任务不会相互干扰，甚至可能从多任务学习中获得益处。

然而，在"vanilla MTL"设置下，尽管vanilla MTL使模型能够同时执行所有任务，但它存在负迁移问题，导致其性能与单任务 Baseline 相比有所下降。具体来说，在目标检测任务中，召回率略有提升0.3%，但mAP50下降了0.6%。在可驾驶区域分割任务中，mIoU没有变化。在车道线分割任务中，IoU和ACC分别下降了0.8%和1.7%。这些结果表明，vanilla MTL在这些全景驾驶感知任务中存在负迁移问题。目标检测和车道线分割的性能都受到了显著影响。在YOLOP [5]中，他们也展示了类似的趋势。

为解决这一问题，作者将所提出的GCA模块整合到基础的多任务学习（MTL）模型中。随后，与基础MTL模型相比，目标检测的mAP50提升了1.4%，可驾驶区域分割的mIoU提高了0.3%。在车道线分割任务中，IoU提升了0.3%，ACC（准确率）提高了0.5%。值得注意的是，该模型在mAP50和mIoU方面甚至超越了单任务 Baseline 模型。这些结果表明，GCA不仅通过减少任务冲突有效缓解了负迁移，还促进了跨任务协同。

2. 梯度相似性分析：为探究GCA如何缓解MTL中的负迁移，作者分析了各任务间的梯度余弦相似性。图9展示了在普通MTL和采用GCA的MTL（RMT-PPAD）设置下，三对任务间的梯度余弦相似性直方图。

在传统的多任务学习（MTL）设置中，作者观察到梯度的大部分落在负余弦相似度上。这表明任务之间存在冲突的梯度方向。这种梯度方向的冲突导致任务间的优化不一致。在插入GCA后，梯度余弦相似度的分布发生了显著变化。所有任务对中的负相似度数量减少。此外，分布更接近零。这表明不同任务的梯度之间的冲突减少，且梯度方向更倾向于中性或轻微的正方向。梯度余弦相似度的结果与表4中的定量结果一致，证实GCA有效缓解了任务间的负迁移。

3. 分割任务的 Mask 阈值：表5展示了在不同 Mask 阈值下，玩具数据集和BDD100K数据集上的分割结果。对于可驾驶区域分割，两个数据集的最佳mIoU均出现在阈值0.40或0.45处。这表明这些阈值对于可驾驶区域分割是最佳的。对于车道线分割，由于其对误报更为敏感，作者主要考虑IoU指标，并将ACC作为辅助参考。结果表明，两个数据集上的最佳IoU均出现在阈值0.90处。此外，玩具数据集和BDD100K数据集在不同阈值下的性能变化趋势相同。这表明最佳阈值由任务特性决定，而非数据集特性。

D. 真实道路实验

作者还使用真实世界数据集来评估模型的性能。具体而言，作者在加拿大安大略省温莎市使用行车记录仪拍摄了若干视频。作者将视频逐帧转换为图像，并将它们组合成一个数据集。作者在该数据集上比较了RMT-PPAD和次优方法YOLOPX的性能。该数据集包含四种场景：雪天、多云和白天。图10显示了在真实道路数据集上的结果。结果表明RMT-PPAD始终能保持相对稳定的性能。与YOLOPX相比，RMT-PPAD的车道线分割更平滑，车辆检测更准确。具体而言，RMT-PPAD在检测远距离和部分遮挡车辆方面表现更优。在夜间场景中，YOLOPX未能检测到加油站内的车辆和右侧等待的车辆。在多云和高速公路场景下，YOLOPX也未能检测到远距离车辆。然而，RMT-PPAD能在相同场景下准确检测这些车辆。这些能力对于全景驾驶感知至关重要，尤其是在高速公路上，因为早期检测此类车辆能为系统提供更多决策和控制的时间。这些观察结果与图8所示的结果一致。

5. 结论

在这项工作中，作者提出了RMT-PPAD，一种基于Transformer的实时多任务模型，该模型集成了GCA模块。RMT-PPAD在一个模型中联合处理目标检测、可驾驶区域分割和车道线分割，同时保持实时推理。具体而言，作者引入了一个轻量级的GCA模块，该模块通过自适应融合共享特征和任务特定特征，有效缓解了负迁移问题。此外，为了避免基于先验知识手动设计不同的分割头，作者提出了自适应分割解码器，该解码器在训练阶段自动学习任务特定的多尺度特征权重。此外，作者识别并解决了车道线标签不一致问题，提高了车道线分割评估的公平性。与BDDi00K数据集上的开源MTL模型相比，结果表明RMT-PPAD实现了SOTA性能，同时保持了实时推理。消融实验和梯度分析进一步验证了每个模块的贡献。此外，作者在实际场景中测试了RMT-PPAD和YOLOPX。结果表明RMT-PPAD始终能提供稳定的性能。在未来的工作中，作者计划研究模型压缩技术，以减少MTL模型的参数量，同时保持其强大的性能。